requests 爬虫应用一般使用两种方法:
1.requests.get(url,**k) 获取网页
2.requests.header(url,**k) 获取网页头信息
HTTP 基于请求与响应、无状态的应用层协议,使用url为HTTP定位网络资源的标志,k为控制访问可选参数,有
params | 字典或字节序列,作为参数加入到URL中 |
---|---|
data | 字典、字节序列或文件对象,作为Request的内容 |
proxies | 字典类型,设定访问代理服务器,可以增加登录认证 |
timeout | 设定超时时间,秒为单位 |
json | JSON格式的数据,作为Request的内容 |
files | 字典类型,传输文件 |
headers | 字典,HTTP定制头 |
request库中有两个重要对象,reponse 和request
reponse对象包含爬虫返回的内容,有很多属性:
r.status_code() 爬取成功还是失败,成功返回200,失败返回404或者其他,用于对编程的稳定性进行维护
r.text() 爬取的内容 ,一般指定[:1000]或者[-500:]来进行显示,防止出现错误
r.encoding() 由header猜测得到的编码方式
r.apparent_encoding() 由内容解析得到的编码方式
一般使用r.encoding=r.apparent_encoding()进行编码,错误率比较小
r.content() 以二进制形式返回