请求方式

最新推荐文章于 2022-03-03 15:34:03 发布

L·Lawliete

最新推荐文章于 2022-03-03 15:34:03 发布

阅读量269

点赞数

分类专栏：爬虫文章标签：请求方式

本文链接：https://blog.csdn.net/AIex_/article/details/96571472

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

实现HTTP请求常见的三种方式
urllib urllib3 requests

urrlib模块
是python自带的模块. 在这个模块中提供了urlopen()方法，通过该方法发送网络请求来获取数据。
urllib模块提供了很多子模块：
在这里插入图片描述

通过urllib.request模块实现发送请求并读取网页内容(通过get请求方式获取百度的网页内容)：

# 通过urllib.request模块实现发送请求并读取网页内容
import  urllib.request  # 导入模块
response = urllib.request.urlopen('http://www.baidu.com')
html = response.read()  # 读取网页内容
print(html)  # 打印网页内容

通过urllib.request模块的post请求实现获取网页信息的内容：

import urllib.parse
import  urllib.request
# 将数据使用urlencode编码处理后，再使用encoding设置为urf-8编码
data = bytes(urllib.parse.urlencode({'world':'hello'}),encoding='utf8')
# 打开指定需要爬取的网页
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
html = response.read()  # 读取网页内容
print(html)  # 打印网页内容

urllib3模块
功能强大、条理清晰、用于HTTP客户端的Python库。
urllib3的重要特性：
①线程安全
②连接池
③客户端SSL/TLS验证
④使用多部分编码上传文件
⑤Helpers用于重试请求并处理HTTP重定向
⑥支持gzip和deflate编码
⑦支持HTTP和SOCKS代理
⑧100%的测试覆盖率

通过urllib3模块实现发送网络请求：

# 通过urllib3模块实现发送网络请求
import  urllib3
# 创建PoolManager对象，用于处理与线程池的连接以及线程安全的所有细节
http = urllib3.PoolManager()
# 对需要爬取的网页发送请求
response = http.request('GET','https://www.baidu.com')
print(response.data)

post请求实现获取网页信息的内容：

# post请求实现获取网页信息的内容
import  urllib3
# 创建PoolManager对象，同于处理与线程池连接以及线程安全的所有细节
http = urllib3.PoolManager()
# 对需要爬取的网页发送请求
response = http.request('POST',
                        'http://httpblin.org/post',
                        fields={'world':'hello'})

在使用urllib3模块前，需要在python中通过输入pip install urllib3 代码进行模块的安装

requests模块
requests是python中实现HTTP请求的一种方式
requests是第三方模块，需要安装
requests模块实现HTTP请求时要比urllib模块简化很多。
requests功能特性：
①Keep-Alive & 连接池
②国际化域名和URL
③带持久Cookie的会话
④浏览器式的SSL认证
⑤自动内容解码
⑥基本/摘要式的身份认证
⑦优雅的key/value Cookie
⑧自动解压
⑨Unicode响应体
⑩HTTP(S)代理支持
⑪文件分块上传
⑫流下载
⑬连接超时
⑭分块请求
⑮支持.netrc

以GET请求方式，打印多种请求信息：

import  requests  # 导入模块
response = requests.get('http://www.baidu.com')
print(response.status_code)  # 打印状态码，200为成功
print(response.url)  # 打印请求URL
print(response.headers)  # 打印头部信息
print(response.cookies)  # 打印cookie信息
print(response.text)  # 以文本形式打开网页源码
print(response.content)  # 以字节流形式打印网页源码

以POST请求方式，发送HTTP网络请求：

import  requests
data = {'world':'hello'}  # 表单参数
# 对需要爬取的网页发送请求
response = requests.post('http://httpbin.org/post',data=data)
print(response.content)  # 以字节流形式打印网页源码

requests不仅提供了GET请求和POST请求的方式，还提供了了以下几种请求方式：

response.put()      # PUT请求
response.delete()       # DELETE请求
response.head()         # HEAD请求
response.options()      # OPTIONS请求

如果发现请求的URL地址参数是跟在?(问号)后面的，比如httpbin.org/get?key=val ，requests模块提供了一个传递参数的方法，允许使用params关键字参数。以一个字符串字典来提供这些参数，例如，想传递key1=value1 和 key2=value2 到httpbin.org/get，那么就可以使用如下代码：

import  requests
payload = {'key1':'value1','key2':'value2'}  # 传递的参数
# 对需要爬取的网页发送请求
response = requests.get('http://httpbin.org/post',params=payload)
print(response.content)  # 以字节流形式打印网页源码

L·Lawliete

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
请求方式

实现HTTP请求常见的三种方式urllib urllib3 requestsurrlib模块是python自带的模块. 在这个模块中提供了urlopen()方法，通过该方法发送网络请求来获取数据。urllib模块提供了很多子模块：通过urllib.request模块实现发送请求并读取网页内容(通过get请求方式获取百度的网页内容)：# 通过u...
复制链接

扫一扫

专栏目录