python爬虫学习之requests库入门

最新推荐文章于 2024-05-22 13:01:13 发布

小熊最可爱

最新推荐文章于 2024-05-22 13:01:13 发布

阅读量1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c15336023/article/details/115312269

版权

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

python爬虫学习:

1.requests库入门:

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

r = requests.get(url)
get(url)用于构造一个向服务器请求资源的Request对象
requests.get()返回一个包含服务器资源的Response对象，Response对象包含爬虫返回的内容

Response对象的属性：

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

Response的编码：

属性	说明
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）

r.encoding：如果header中不存在charset，则认为编码为ISO-8859-1

r.apparent_encoding：根据网页内容分析出的编码方式。

requests.get(url,params = None, **kwargs)

url:拟获取页面的url链接

params：url中的额外参数，字典或字节流格式，可选

**kwargs：12个控制访问的参数

Requests库的异常：

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status()	若不是200，产生异常requests.HTTPError

HTTP URL的理解：

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP中PATCH和PUT的区别：

假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段。

需求：用户修改了UserName,其他不变。

采用PATCH,仅向URL提供UserName的局部更新请求。

采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除。

PATCH的好处：节省网络带宽

requests.request(method,url,**kwargs)

method：请求方式，对应get/put/post等7种，还有一个OPTIONS，主要是向服务器获取一些服务器和客户端能够打交道的参数。

url：拟获取页面的url链接

**kwargs：控制访问的参数，共13个，均为可选项

params：字典或字节序列，作为参数增加到url中

data：字典、字节序列或文件对象，作为Request的内容

json：JSON格式的数据，作为Request的内容

headers：字典，HTTP定制头

cookies：字典或CookieJar，Request中的cookie

auth：元组，支持HTTP认证功能。

files：字典类型，传输文件

timeout：设置超时时间，秒未单位

proxies：字典类型，设定访问代理服务器，可以增加登录认证。

allow_redirects：True/False，默认为True，重定向开关

stream：True/False，默认为True，获取内容立即下载开关

verify：True/False，默认为True，认证SSL证书开关

cert：本地SSL证书路径

requests.get(url,params= None,**kwargs)

params：url中的额外参数，字典或字节流格式，可选

**kwargs：12个控制访问的参数

requests.post(url,data= None,json=None,**kwargs)

requests.put(url,data= None,**kwargs)

requests.patch(url,data= None,**kwargs)

requests.delete(url,**kwargs)

爬取网页的通用代码框架：

try:

r= requests.get(url,timeout = 30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return “产生异常”

小熊最可爱

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。