1.爬虫流程
- 确定需求
- 寻找需求
- 发送请求
- 解析数据
- 存储数据
2.爬虫环境
- windows10
- Python3.7
- IDE:Pycharm/Sublime
3.requests库安装和使用
-
request库的使用对应的是爬虫流程中发送请求这一步骤
-
web请求方式—GET/POST
1.GET是默认的HTTP请求方法,用以直接输入网址的方式去访问网站。
2. POST方法是向服务器提交表单数据,通常表单提交时采用POST方法。
3. GET把请求参数包含在URL种,POST通过请求体传递参数。
4.GET相对POST不安全,参数直接暴露在URL上,用来传递敏感信息。 -
安装
在python控制台输入
pip install requests
- 发送请求
import requests
#define requests url
url = 'https://www.baidu.com'
#start GET request
res =requests.get(url=url)
res.encoding='utf-8'
#get respond result
print(res) #<Response [200]>
print(res.content) # 二进制的文本流
print(res.content.decode('utf-8')) #二进制的文本流按照ytf-8的字符集转化为普通字符串
print(res.text) #获取相应的内容
print(res.headers) #响应头信息
print(res.status_code) #请求状态码 200成功 404失败
print(res.url) #请求的url地址
print(res.request.headers) #请求的头信息 'User-Agent': 'python-requests/2.22.0', 直接就告知是python程序发出请求
- 百度审查元素几个有用点:cookie,Host,User-Agent