Python 的七个HTTP请求库对比

最新推荐文章于 2024-07-27 16:16:11 发布

usp1994

最新推荐文章于 2024-07-27 16:16:11 发布

阅读量953

点赞数 25

文章标签： python http xcode

本文链接：https://blog.csdn.net/No_Name_Cao_Ni_Mei/article/details/139527045

版权

Python HTTP请求库对比

库名称	特点	优点	缺点
`requests`	简单易用的HTTP库，基于`urllib3`。	- 语法简洁 - 社区支持强大 - 易于上手和维护	- 阻塞式调用，不支持异步操作 - 相比`aiohttp`体积较大
`http.client`	Python标准库中的低级HTTP库。	- 无需安装第三方库 - 提供底层访问，可自定义程度高	- API使用相对复杂 - 缺少高级HTTP功能
`aiohttp`	异步的HTTP网络通信库，支持HTTP/1.1和HTTP/2。	- 支持异步操作，适合高并发 - 支持WebSockets	- 异步编程模型学习曲线陡峭 - 较新，社区支持不如`requests`
`urllib`	Python标准库，提供URL处理。	- 无需安装第三方库 - 功能全面，包括请求和错误处理	- 易用性不如`requests` - 不支持异步操作
`httpx`	支持HTTP/1.1和HTTP/2的异步HTTP库。	- 支持同步和异步请求 - 支持HTTP/2 - 可扩展性好	- 相对于`requests`，知名度和社区支持较小
`treq`	基于`Twisted`的异步HTTP客户端，使用`requests`的API风格。	- 异步操作 - 与`requests`类似的API - 适用于`Twisted`用户	- 依赖于`Twisted`框架 - 社区支持有限
`requests-toolbelt`	`requests`的官方扩展，提供额外功能。	- 增加`requests`没有的功能 - 流式上传下载支持	- 作为扩展，需要与`requests`结合使用 - 功能较为特定

在选择库时，应该考虑以下因素：

项目需求：是否需要异步支持，是否处理大量并发请求。
易用性：API的简洁性和学习曲线。
社区和文档：活跃的社区和详尽的文档可以加快开发速度。
性能：不同库在不同场景下的性能表现。
兼容性：是否支持需要的HTTP特性，如HTTP/2或WebSockets。

实战请求豆瓣排行榜

curl ^"https://movie.douban.com/j/chart/top_list_count?type=11&interval_id=100^%^3A90&action=^&#34;  ^
  -H "Accept: */*" ^
  -H "Accept-Language: zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7" ^
  -H "Connection: keep-alive" ^
  -H ^"Cookie: ll=^\^"118282^\^"; bid=p6VTwxlhQxU; _pk_id.100001.4cf6=1960560bd6f348cf.1717555113.; __utmc=30149280; __utmc=223695111; __yadk_uid=vu9yRywnfgofYdkNxlDGN1LGZumZZlP3; _vwo_uuid_v2=DB54A160968C09D586B65593E774AC10A^|93b3f99adf2e8bfe6ce4a84c068e3f82; _pk_ref.100001.4cf6=^%^5B^%^22^%^22^%^2C^%^22^%^22^%^2C1717727676^%^2C^%^22https^%^3A^%^2F^%^2Fwww.heywhale.com^%^2F^%^22^%^5D; push_noty_num=0; push_doumail_num=0; __utmv=30149280.19806; __utma=30149280.912128761.1717555113.1717725025.1717728345.3; __utmz=30149280.1717728345.3.2.utmcsr=google^|utmccn=(organic)^|utmcmd=organic^|utmctr=(not^%^20provided); __utma=223695111.1475293929.1717555113.1717727676.1717728345.4; __utmz=223695111.1717728345.4.2.utmcsr=google^|utmccn=(organic)^|utmcmd=organic^|utmctr=(not^%^20provided)^" ^
  -H ^"Referer: https://movie.douban.com/typerank?type_name=^%^E5^%^89^%^A7^%^E6^%^83^%^85&type=11&interval_id=100:90&action=^&#34;  ^
  -H "Sec-Fetch-Dest: empty" ^
  -H "Sec-Fetch-Mode: cors" ^
  -H "Sec-Fetch-Site: same-origin" ^
  -H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36" ^
  -H "X-Requested-With: XMLHttpRequest" ^
  -H ^"sec-ch-ua: ^\^"Google Chrome^\^";v=^\^"125^\^", ^\^"Chromium^\^";v=^\^"125^\^", ^\^"Not.A/Brand^\^";v=^\^"24^\^"^" ^
  -H "sec-ch-ua-mobile: ?0" ^
  -H ^"sec-ch-ua-platform: ^\^"Windows^\^"^"

这个curl命令包含了一个HTTP GET请求，它发送到豆瓣电影的某个API端点，请求某种类型的电影排行数据。请求中包含了多个HTTP头，例如Accept、Accept-Language、Connection、Cookie、Referer、Sec-Fetch-*、User-Agent、X-Requested-With和sec-ch-ua等。这些头信息通常用于控制请求的行为，或者提供客户端环境的额外信息。

以下是使用几种不同的Python HTTP请求库来模拟这个curl请求的示例：

1. 使用 `requests` 库

import requests

url = "https://movie.douban.com/j/chart/top_list_count?type=11&interval_id=100:90&action="
headers = {
    "Accept": "*/*",
    "Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7",
    "Connection": "keep-alive",
    # Cookie 头过长，需要按实际值填充
    # ...
    "Referer": "https://movie.douban.com/typerank?type_name=剧情&type=11&interval_id=100:90&action=",
    # 其他 headers 按需填充
    # ...
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36"
}

response = requests.get(url, headers=headers)
print(response.text)

2. 使用 `aiohttp` 库（异步）

import aiohttp
import asyncio

async def fetch(url, headers):
    async with aiohttp.ClientSession() as session:
        async with session.get(url, headers=headers) as response:
            return await response.text()

url = "https://movie.douban.com/j/chart/top_list_count?type=11&interval_id=100:90&action="
headers = {...}  # 同上

loop = asyncio.get_event_loop()
html = loop.run_until_complete(fetch(url, headers))
print(html)

3. 使用 `http.client`（Python 标准库）

import http.client
import urllib.parse

conn = http.client.HTTPSConnection("movie.douban.com")

# 将参数编码为URL
params = urllib.parse.urlencode({
    'type': '11',
    'interval_id': '100:90',
    'action': ''
})
url = f"/j/chart/top_list_count?{params}"

headers = {
    # 同上
}

conn.request("GET", url, headers=headers)

response = conn.getresponse()
data = response.read()

print(data.decode('utf-8'))

conn.close()