一、网络爬虫
1、网络爬虫的定义
网络爬虫(又称为网络蜘蛛,网络机器人)就是模拟客户端发送网络请求,获取响应数据,一种按照一定的规则,自动地抓取万堆网信息的程序或脚本。
2、网络爬虫的作用
从万维网上获取,我们需要的信息
3、网络爬虫的概念
1)、网络爬虫与浏览器的区别:浏览器是显示数据的,而网络爬虫是用来采集数据的
2)、定义:模拟客户端发送请求获取响应数据,按照一定规则,自动从万维网上获取信息的程序
3)、作用:从万维网上,获取我们需要的信息。
二、requests
1、requests介绍
requests是一个优雅而简单的python HTTP请求库
requests的作用是发送请求获取响应数据
2、requests安装
在终端命令行工具运行这个简单的命令即可
pip install requests
3、requests使用3步骤
1)、导入数据
2)、发送get请求,获取响应
3)、从响应中获取数据
# 1. 导入模块
import requests
# 2.发送请求,获取响应
response = requests.get('http://www.baidu.com')
#print(response)
# 3.获取响应数据
# print(response.encoding)
# response.encoding = 'utf8'
# print(response.text)
print(response.content.decode())
4、response 常见属性
1)、response.text:响应体str类型
2)、response.ecoding:二进制转换字符使用的编码
3)、response.context:响应体bytes类型
5、案例——疫情数据的获取
import requests
response = requests.get('https://motion.baidu.com/activity/yiqing_bigdata/trend?tab=material&source=%E5%85%A8%E5%9B%BD%E7%96%AB%E6%83%85')
print(response.content.decode())
三、BeautifuiSoup库
1、Beautiful Soup介绍
它是一个可以从HTML或者XML文件中提取数据的python库
安装Beautiful Soup 4
pip install bs4
安装lxml
pip install lxml