一步一步学爬虫(2)之httpx的使用

本文介绍了Python爬虫中httpx库的使用,包括如何安装、基本使用、支持HTTP/2.0协议以及异步请求。通过示例展示了httpx在处理HTTP/2.0网站时的优势以及与requests库的不同。
摘要由CSDN通过智能技术生成

2.4 httpx的使用

  • 前面提到的urllib和requests库的使用,可以爬取绝大多数网站数据,但是HTTP/2.0协议的网站,就没法爬取了。这种情况就用到了httpx库。

2.4.1 示例

  书上给举了这个例子 https://spa16.scrape.center/. 这应该是崔老师自己的站点,自己做的样例,强烈推荐,这本最新的爬虫书. 那么问题来了,我们是怎么知道它使用的是http/2.0呢,requests不能用吗?
  打开浏览器 去检查元素,看network那个标签下的All(全部)里面的第一个,右侧标头里面的请求标头Request Headers。如图。
在这里插入图片描述
  既然是HTTPS2.0的,用requests库是无法爬取的,不妨尝试一下看:

import requests

url = "https://spa16.scrape.center"
resp = requests.get(url)
print(resp.text)

  运行结果自然是报错。这里的报错,并不是没有设置请求头的问题。真实原因是requests这个库是使用HTTP/1.1访问目标网站,而这个网站是2.0,自然没法访问。

2.4.2 安装

  • httpx可以直接用pip3工具安装。
    pip3 install httpx
  • 另外,除了这个httpx,想要支持HTTP/2.0,还要再安装一个工具。
    pip3 install 'httpx[http2]'

2.4.3 基本使用

  httpx 和 requests 的很多 API 存在相似之处,我们先看下最基本的 GET 请求的用法:

import httpx

response = httpx.get('https://www.httpbin.org/get')
print(response.status_code)
print(response.headers)
print(response.text)

  这里我们还是请求之前的测试网站,直接使用 httpx 的 get 方法即可,用法和 requests 里的一模一样,将返回结果赋值为response 变量,然后打印出它的status_code、headers、text等属性,运行结果如下:

200
Headers({
   'date': 'Mon, 26 Dec 2022 15:28:48 GMT', 'content-type': 'application/json', 'content-length': '311', 'connection': 'keep-alive', 'server': 'gunicorn/19.9.0', 'access-control-allow-origin': '*', 'access-control-allow-credentials': 'true'})
{
   
  "args": {
   }, 
  "headers": {
   
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "www.httpbin.org", 
    "User-Agent": "python-httpx/0.23.1", 
    "X-Amzn-Trace-Id": "Root=1-63a9bdb0-0d54247f5449601021648371"
  }, 
  "origin": "39.69.199.58", 
  "
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山哥ol

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值