python爬虫入门(二)------request库的学习

最新推荐文章于 2023-05-05 10:20:01 发布

Soul酒吧

最新推荐文章于 2023-05-05 10:20:01 发布

阅读量92

点赞数

分类专栏： python之爬虫的学习文章标签： python http 爬虫

本文链接：https://blog.csdn.net/qq_43556844/article/details/114014273

版权

python之爬虫的学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

request库方法介绍

方法	说明
requests.request()	构造一个请求，支撑一下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

request方法的使用

#requests.request(method,url,**kwargs) 改函数返回response实例
#method:请求方式,一共有6种; 请求方法，常见有GET、POST请求【此外还有HEAD、PUT、PATCH、DELETE、OPTIONS】（前6种就是HTTP协议所对应的请求方式，OPTIONS事实上是向服务器获取一些服务器跟客户端能够打交道的参数）
#kwargs:表示访问参数
	#params:字典或字节序列,作为参数添加到url中，关键字
	#data:字典、字节序列或文件对象,作为Request的内容
	#json:json格式的数据,作为requsts的内容
	#headers:字典,http定制 头
	#cookies:字典或CookieJar,Request中的cookie
	#auth:元组,支持http认证功能
	#file:字典类型，传输文件
	#timeout:设定超时时间,秒为单位
	#proxies:字典类型,设定访问代理服务器,可以增加登录认证

HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储的一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

request.get()方法
构建一个Request对象向服务器发送请求，返回一个含有服务器资源的Response对象

r = requests.get(url)
requests.get(url, params=None, **kwargs)

url：拟获取页面的url链接
params：字典或字节序列,作为参数添加到url中，关键字，可选
**kwargs：12个控制访问的参数

response对象的属性

属性	说明
r.status_code	http请求的返回状态,200表示链接成功,404表示失败
r.text http	响应内容的字符串形式,即,url对应的页面内容
r.encoding	从http header中猜测的响应内容编码方式
r.apparent_encoding	从内容分析出的响应内容编码方式（备选编码方式）
r.content	http响应内容的二进制形式（可获取图片）

Requests库的异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooMangRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status()	如果不是200，产生异常requests.HTTPError

爬取网页的通用代码框架

#爬取网页的通用代码框架
import requests
def getHTMLText(url):
	try:
		r = requests.get(url,timeout=30)
		r.raise_for_status()  #如果状态不是200，引发httperror异常
		return r.text
	except:
		return "产生异常"
url = "http://www.baidu.com"
print(getHTMLText(url))

cookie: 使用requests添加代理，只要在请求的方法中（比如get或者post）传递proxies参数就可以了
例如:proxy{‘http’:‘代理IP’} response =
request.get(url,headers=headers,proxies=proxy)
response.cookies可以获得cookie信息response.cookies。get_dict()以字典返回cookie信息

参考学习网址：
https://www.icourse163.org/course/BIT-1001870001

Soul酒吧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫入门(二)------request库的学习

request库方法介绍方法说明requests.request()构造一个请求，支撑一下各方法的基础方法requests.get()获取HTML网页的主要方法，对应于HTTP的GETrequests.head()获取HTML网页头信息的方法，对应于HTTP的HEADrequests.post()向HTML网页提交POST请求的方法，对应于HTTP的POSTrequests.put()向HTML网页提交PUT请求的方法，对应于HTTP的PUTre
复制链接

扫一扫