requests库

最新推荐文章于 2024-07-31 14:11:45 发布

pure water

最新推荐文章于 2024-07-31 14:11:45 发布

阅读量104

点赞数

分类专栏：爬虫文章标签：爬虫 requests

本文链接：https://blog.csdn.net/qq_41694504/article/details/84671409

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

requests 爬虫应用一般使用两种方法：
1.requests.get(url,**k) 获取网页
2.requests.header(url,**k) 获取网页头信息
HTTP 基于请求与响应、无状态的应用层协议，使用url为HTTP定位网络资源的标志，k为控制访问可选参数，有

params	字典或字节序列，作为参数加入到URL中
data	字典、字节序列或文件对象，作为Request的内容
proxies	字典类型，设定访问代理服务器，可以增加登录认证
timeout	设定超时时间，秒为单位
json	JSON格式的数据，作为Request的内容
files	字典类型，传输文件
headers	字典，HTTP定制头

request库中有两个重要对象，reponse 和request

reponse对象包含爬虫返回的内容，有很多属性：
r.status_code() 爬取成功还是失败，成功返回200，失败返回404或者其他，用于对编程的稳定性进行维护
r.text() 爬取的内容，一般指定[：1000]或者[-500：]来进行显示，防止出现错误
r.encoding() 由header猜测得到的编码方式
r.apparent_encoding() 由内容解析得到的编码方式
一般使用r.encoding=r.apparent_encoding()进行编码，错误率比较小
r.content() 以二进制形式返回

pure water

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
requests库

requests 爬虫应用一般使用两种方法：1.requests.get(url,**k) 获取网页2.requests.header(url,**k) 获取网页头信息HTTP 基于请求与响应、无状态的应用层协议，使用url为HTTP定位网络资源的标志，k为控制访问可选参数，有params字典或字节序列，作为参数加入到URL中data字典、字节序列或文件...
复制链接

扫一扫

专栏目录