请求方式

实现HTTP请求常见的三种方式
urllib urllib3 requests

urrlib模块
是python自带的模块. 在这个模块中提供了urlopen()方法,通过该方法发送网络请求来获取数据。
urllib模块提供了很多子模块:
在这里插入图片描述

通过urllib.request模块实现发送请求并读取网页内容(通过get请求方式获取百度的网页内容):

# 通过urllib.request模块实现发送请求并读取网页内容
import  urllib.request  # 导入模块
response = urllib.request.urlopen('http://www.baidu.com')
html = response.read()  # 读取网页内容
print(html)  # 打印网页内容

通过urllib.request模块的post请求实现获取网页信息的内容:

import urllib.parse
import  urllib.request
# 将数据使用urlencode编码处理后,再使用encoding设置为urf-8编码
data = bytes(urllib.parse.urlencode({'world':'hello'}),encoding='utf8')
# 打开指定需要爬取的网页
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
html = response.read()  # 读取网页内容
print(html)  # 打印网页内容

urllib3模块
功能强大、条理清晰、用于HTTP客户端的Python库。
urllib3的重要特性:
①线程安全
②连接池
③客户端SSL/TLS验证
④使用多部分编码上传文件
⑤Helpers用于重试请求并处理HTTP重定向
⑥支持gzip和deflate编码
⑦支持HTTP和SOCKS代理
⑧100%的测试覆盖率

通过urllib3模块实现发送网络请求:

# 通过urllib3模块实现发送网络请求
import  urllib3
# 创建PoolManager对象,用于处理与线程池的连接以及线程安全的所有细节
http = urllib3.PoolManager()
# 对需要爬取的网页发送请求
response = http.request('GET','https://www.baidu.com')
print(response.data)

post请求实现获取网页信息的内容:

# post请求实现获取网页信息的内容
import  urllib3
# 创建PoolManager对象,同于处理与线程池连接以及线程安全的所有细节
http = urllib3.PoolManager()
# 对需要爬取的网页发送请求
response = http.request('POST',
                        'http://httpblin.org/post',
                        fields={'world':'hello'})

在使用urllib3模块前,需要在python中通过输入pip install urllib3 代码进行模块的安装

requests模块
requests是python中实现HTTP请求的一种方式
requests是第三方模块,需要安装
requests模块实现HTTP请求时要比urllib模块简化很多。
requests功能特性:
①Keep-Alive & 连接池
②国际化域名和URL
③带持久Cookie的会话
④浏览器式的SSL认证
⑤自动内容解码
⑥基本/摘要式的身份认证
⑦优雅的key/value Cookie
⑧自动解压
⑨Unicode响应体
⑩HTTP(S)代理支持
⑪文件分块上传
⑫流下载
⑬连接超时
⑭分块请求
⑮支持.netrc

以GET请求方式,打印多种请求信息:

import  requests  # 导入模块
response = requests.get('http://www.baidu.com')
print(response.status_code)  # 打印状态码,200为成功
print(response.url)  # 打印请求URL
print(response.headers)  # 打印头部信息
print(response.cookies)  # 打印cookie信息
print(response.text)  # 以文本形式打开网页源码
print(response.content)  # 以字节流形式打印网页源码

以POST请求方式,发送HTTP网络请求:

import  requests
data = {'world':'hello'}  # 表单参数
# 对需要爬取的网页发送请求
response = requests.post('http://httpbin.org/post',data=data)
print(response.content)  # 以字节流形式打印网页源码

requests不仅提供了GET请求和POST请求的方式,还提供了了以下几种请求方式:

response.put()      # PUT请求
response.delete()       # DELETE请求
response.head()         # HEAD请求
response.options()      # OPTIONS请求

如果发现请求的URL地址参数是跟在?(问号)后面的,比如httpbin.org/get?key=val ,requests模块提供了一个传递参数的方法,允许使用params关键字参数。以一个字符串字典来提供这些参数,例如,想传递key1=value1 和 key2=value2 到httpbin.org/get,那么就可以使用如下代码:

import  requests
payload = {'key1':'value1','key2':'value2'}  # 传递的参数
# 对需要爬取的网页发送请求
response = requests.get('http://httpbin.org/post',params=payload)
print(response.content)  # 以字节流形式打印网页源码
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值