Python网络爬虫与信息提取-Day2-requests库（2）

最新推荐文章于 2024-04-21 15:38:24 发布

辣鸡翔

最新推荐文章于 2024-04-21 15:38:24 发布

阅读量398

点赞数 2

分类专栏： python 网络爬虫文章标签： python 网络爬虫 http协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenxiang001/article/details/77494113

版权

python 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

14 篇文章 0 订阅

订阅专栏

HTTP协议

HTTP，Hypertext Transfer Protocol，超文本传输协议

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议

HTTP协议采用URL作为定位网络资源的标识，URL格式如下：

http://host[:port][path]

host: 合法的Internet主机域名或IP地址

port: 端口号，缺省端口为80

path: 请求资源的

HTTP URL实例：

http://www.bit.edu.cn

http://220.181.111.188/duty

HTTP URL的理解：

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据

HTTP协议对资源的操作

GET 请求获取URL位置的资源

HEAD 请求获取URL位置资源的响应消息报告，即获得该资源的头POST 请求向URL位置的资源后附加新的数据

PUT 请求向URL位置存储一个资源，覆盖原URL位置的资源

PATCH 请求局部更新URL位置的资源，即改变该处资源的部分内容

DELETE 请求删除URL位置存储的

通过URL和命令管理资源，操作独立无状态，网络通道及服务器成为了黑盒子

PATCH和PUT的区别

假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段

需求：用户修改了UserName，其他不变

• 采用PATCH，仅向URL提交UserName的局部更新请求

• 采用PUT，必须将所有20个字段一并提交到URL，未提交字段被删除

PATCH的最主要好处：节省网络带宽

HTTP协议与Request库方法功能是一一对应的

1.head()方法

>>> import requests

>>> r = requests.head('http://httpbin.org/get')

>>> r.headers

{'Connection': 'keep-alive', 'Server': 'meinheld/0.6.1', 'Date': 'Tue, 22 Aug 2017 14:46:44 GMT', 'Content-Type': 'application/json', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true', 'X-Powered-By': 'Flask', 'X-Processed-Time': '0.000668048858643', 'Content-Length': '265', 'Via': '1.1 vegur'}

>>> r.text

''

用head方法去访问一个链接，用r.headers来反馈展示的头部信息的内容，试图展示它的全部内容时内容是空

所以head方法可以用很少的流量获取网络资源的概要信息

2.post()方法

使用post()方法向服务器提供新增数据

>>> import requests

>>> payload = {'key1':'value1','key2':'value2'}

>>> r = requests.post("http://httpbin.org/post",data=payload)

>>> print(r.text)

{

"args": {},

"data": "",

"files": {},

"form": {

"key1": "value1",

"key2": "value2"

},

"headers": {

"Accept": "*/*",

"Accept-Encoding": "gzip, deflate",

"Connection": "close",

"Content-Length": "23",

"Content-Type": "application/x-www-form-urlencoded",

"Host": "httpbin.org",

"User-Agent": "python-requests/2.18.4"

},

"json": null,

"origin": "112.0.247.58",

"url": "http://httpbin.org/post"

}

我们发现它们被放到了form字段下，说明向URL POST一个字典，自动编码为form（表单）

如果我们不提交键值对而提交字符串，我们发现它被存到了data字段下

>>> r = requests.post("http://httpbin.org/post",data='ABC')

>>> print(r.text)

{

"args": {},

"data": "ABC",

"files": {},

"form": {},

"headers": {

"Accept": "*/*",

"Accept-Encoding": "gzip, deflate",

"Connection": "close",

"Content-Length": "3",

"Host": "httpbin.org",

"User-Agent": "python-requests/2.18.4"

},

"json": null,

"origin": "112.0.247.58",

"url": "http://httpbin.org/post"

}

所以，post()方法根据用户提交内容的不同，在服务器上会做数据的相关整理

3.put()

put()方法与post()类似，只不过它会把原有数据覆盖掉

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。