Python网页解析库：用requests-html爬取网页

最新推荐文章于 2024-07-16 21:57:11 发布

九柄说测试

最新推荐文章于 2024-07-16 21:57:11 发布

阅读量486

点赞数 1

文章标签： python 压力测试单元测试

转载请联系我，谢谢

本文链接：https://blog.csdn.net/looker53/article/details/125876811

版权

本文介绍了Python的requests-html库用于网页解析和爬虫的使用，包括安装、原理、CSS和XPath选择器、人性化操作如获取超链接和分页信息，以及支持JS渲染的功能。该库简化了网页解析过程，提供了便捷的API。

摘要由CSDN通过智能技术生成

首先，要有心理准备，不是说会自动化，就不用干手# Python网页解析库：用requests-html爬取网页

1. 开始

Python 中可以进行网页解析的库有很多，常见的有 BeautifulSoup 和 lxml 等。在网上玩爬虫的文章通常都是介绍 BeautifulSoup 这个库，我平常也是常用这个库，最近用 Xpath 用得比较多，使用 BeautifulSoup 就不大习惯，很久之前就知道 Reitz 大神出了一个叫 Requests-HTML 的库，一直没有兴趣看，这回可算歹着机会用一下了。

使用 pip install requests-html安装，上手和 Reitz 的其他库一样，轻松简单：

from requests_html import HTMLSession
session = HTMLSession()

r = session.get('https://www.python.org/jobs/')

这个库是在 requests 库上实现的，r 得到的结果是 Response 对象下面的一个子类，多个一个 html 的属性。所以 requests 库的响应对象可以进行什么操作，这个 r 也都可以。如果需要解析网页，直接获取响应对象的 html 属性：

r.html

2. 原理

不得不膜拜 Reitz 大神太会组装技术了。实际上 HTMLSession 是继承自 requests.Session 这个核心类，然后将 requests.Session 类里的 requests 方法改写，返回自己的一个 HTMLResponse 对象，这个类又是继承自 requests.Response,只是多加了一个 _from_response 的方法来构造实例：

class HTMLSession(requests.Session):
    # 重写 request 方法，返回 HTMLResponse 构造
    def request(self, *args, **kwargs) -> HTMLResponse:
        r = super(HTMLSession, self).request(*args,

最低0.47元/天解锁文章

九柄说测试

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python网页解析库：用requests-html爬取网页

Reitz大神设计出来的东西还是一如既往的简单好用，自己不多做，大多用别人的东西组装，简化api。真是够人性。不过有的地方还是优化空间，希望有兴趣和精力的童鞋去github上关注一下这个项目。自动化测试没有办法完全取代手工测试，有些测试场景，自动化的成本要明显高于手工。其次，咱们把平时的测试工作简单分一下类，手工测试最常见的就是基于界面的测试，通常可以串起来整套流程。但是对于分层测试来说，接口测试是一种回报率更高的方式，自动化测试在接口测试的应用是最普遍的。，如果没有接触过，两个选一个就行了。...
复制链接

扫一扫