实现HTTP请求常见的三种方式
urllib urllib3 requests
urrlib模块
是python自带的模块. 在这个模块中提供了urlopen()方法,通过该方法发送网络请求来获取数据。
urllib模块提供了很多子模块:
通过urllib.request模块实现发送请求并读取网页内容(通过get请求方式获取百度的网页内容):
# 通过urllib.request模块实现发送请求并读取网页内容
import urllib.request # 导入模块
response = urllib.request.urlopen('http://www.baidu.com')
html = response.read() # 读取网页内容
print(html) # 打印网页内容
通过urllib.request模块的post请求实现获取网页信息的内容:
import urllib.parse
import urllib.request
# 将数据使用urlencode编码处理后,再使用encoding设置为urf-8编码
data = bytes(urllib.parse.urlencode({'world':'hello'}),encoding='utf8')
# 打开指定需要爬取的网页
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
html = response.read() # 读取网页内容
print(html) # 打印网页内容
urllib3模块
功能强大、条理清晰、用于HTTP客户端的Python库。
urllib3的重要特性:
①线程安全
②连接池
③客户端SSL/TLS验证
④使用多部分编码上传文件
⑤Helpers用于重试请求并处理HTTP重定向
⑥支持gzip和deflate编码
⑦支持HTTP和SOCKS代理
⑧100%的测试覆盖率
通过urllib3模块实现发送网络请求:
# 通过urllib3模块实现发送网络请求
import urllib3
# 创建PoolManager对象,用于处理与线程池的连接以及线程安全的所有细节
http = urllib3.PoolManager()
# 对需要爬取的网页发送请求
response = http.request('GET','https://www.baidu.com')
print(response.data)
post请求实现获取网页信息的内容:
# post请求实现获取网页信息的内容
import urllib3
# 创建PoolManager对象,同于处理与线程池连接以及线程安全的所有细节
http = urllib3.PoolManager()
# 对需要爬取的网页发送请求
response = http.request('POST',
'http://httpblin.org/post',
fields={'world':'hello'})
在使用urllib3模块前,需要在python中通过输入pip install urllib3 代码进行模块的安装
requests模块
requests是python中实现HTTP请求的一种方式
requests是第三方模块,需要安装
requests模块实现HTTP请求时要比urllib模块简化很多。
requests功能特性:
①Keep-Alive & 连接池
②国际化域名和URL
③带持久Cookie的会话
④浏览器式的SSL认证
⑤自动内容解码
⑥基本/摘要式的身份认证
⑦优雅的key/value Cookie
⑧自动解压
⑨Unicode响应体
⑩HTTP(S)代理支持
⑪文件分块上传
⑫流下载
⑬连接超时
⑭分块请求
⑮支持.netrc
以GET请求方式,打印多种请求信息:
import requests # 导入模块
response = requests.get('http://www.baidu.com')
print(response.status_code) # 打印状态码,200为成功
print(response.url) # 打印请求URL
print(response.headers) # 打印头部信息
print(response.cookies) # 打印cookie信息
print(response.text) # 以文本形式打开网页源码
print(response.content) # 以字节流形式打印网页源码
以POST请求方式,发送HTTP网络请求:
import requests
data = {'world':'hello'} # 表单参数
# 对需要爬取的网页发送请求
response = requests.post('http://httpbin.org/post',data=data)
print(response.content) # 以字节流形式打印网页源码
requests不仅提供了GET请求和POST请求的方式,还提供了了以下几种请求方式:
response.put() # PUT请求
response.delete() # DELETE请求
response.head() # HEAD请求
response.options() # OPTIONS请求
如果发现请求的URL地址参数是跟在?(问号)后面的,比如httpbin.org/get?key=val ,requests模块提供了一个传递参数的方法,允许使用params关键字参数。以一个字符串字典来提供这些参数,例如,想传递key1=value1 和 key2=value2 到httpbin.org/get,那么就可以使用如下代码:
import requests
payload = {'key1':'value1','key2':'value2'} # 传递的参数
# 对需要爬取的网页发送请求
response = requests.get('http://httpbin.org/post',params=payload)
print(response.content) # 以字节流形式打印网页源码