Python网页解析库：用requests-html爬取网页

代码输入中...

于 2022-07-20 15:23:38 发布

阅读量483

点赞数

文章标签： python html 开发语言 pycharm 大数据

本文链接：https://blog.csdn.net/m0_59485658/article/details/125893174

版权

本文介绍了Python的Requests-HTML库，它是基于requests和PyQuery的网页解析工具，提供了CSS和XPath选择器，以及人性化的元素操作，支持JS渲染。文章详细讲解了库的原理、安装、元素定位、CSS和XPath规则，以及加载JS等功能。

摘要由CSDN通过智能技术生成

1. 开始

Python 中可以进行网页解析的库有很多，常见的有 BeautifulSoup 和 lxml 等。在网上玩爬虫的文章通常都是介绍 BeautifulSoup 这个库，我平常也是常用这个库，最近用 Xpath 用得比较多，使用 BeautifulSoup 就不大习惯，很久之前就知道 Reitz 大神出了一个叫 Requests-HTML 的库，一直没有兴趣看，这回可算歹着机会用一下了。

使用 pip install requests-html 安装，上手和 Reitz 的其他库一样，轻松简单：

from requests_html import HTMLSession
session = HTMLSession()

r = session.get('https://www.python.org/jobs/')

这个库是在 requests 库上实现的，r 得到的结果是 Response 对象下面的一个子类，多个一个 html 的属性。所以 requests 库的响应对象可以进行什么操作，这个 r 也都可以。如果需要解析网页，直接获取响应对象的 html 属性：

r.html

2. 原理

不得不膜拜 Reitz 大神太会组装技术了。实际上 HTMLSession 是继承自 requests.Session 这个核心类，然后将 requests.Session 类里的 requests 方法改写，返回自己的一个 HTMLResponse 对象，这个类又是继承自 requests.Response,只是多加了一个 _from_response 的方法来构造实例：