静态网页的爬取
1.安装requests
pip install requests
2.获取响应内容
import requests
r = requests.get(url)
#打印出文本编码
print("文本编码", r.encoding)
#打印出状态响应码
print("状态响应码", r.status_code)
#打印出字符串方式的响应体(即文本)
print("字符串方式的响应体",t.text)
这样就返回了一个名为 r 的 response 响应对象,存储了服务器的响应内容
r.text 是服务器响应的内容
r.enconding是服务器内容使用的文本编码
r.status_code 用于检测响应的状态码,若返回200,则表示请求成功,若返回4xx,则表示客户端错误,若返回5xx, 则表示服务器错误响应。
r.content 是字节方式的响应体,会自动解码 gzip 和 deflate 编码的响应数据
r.json()是 requests 中内置的json解码器
3.定制 requests
(1)传递 url 参数
为了请求特定的数据,我们要在 URL 的查询字符串中加入变量,数据跟在一个问号的后面,以键值对的形式放在 url中。在
requests中,可以把这些参数保存到字典中,然后用 params构建到 URL 中。