requests_html学习手册（1）

最新推荐文章于 2024-06-23 18:00:00 发布

qai987

最新推荐文章于 2024-06-23 18:00:00 发布

阅读量593

点赞数 1

分类专栏： python爬虫学习文章标签： python 爬虫 requets-html

本文链接：https://blog.csdn.net/qazz987/article/details/88661528

版权

本文是关于requests_html库的学习笔记，介绍了如何构造请求、解析HTML、使用absolute_links获取绝对链接以及运用search进行正则匹配。requests_html是requests的二次封装，支持Python3.6+，提供类似PyQuery的API。

摘要由CSDN通过智能技术生成

本文为自己学习爬虫工具requests_html的笔记，也希望可以帮到刚学习爬虫的同学。

简单介绍

requests_html是对requests库的第二次封装，其中添加了像pyquery这样的解析HTML库，可以使用pip 进行安装。

PS：requests_html仅支持python3.6以上（包括3.6）的版本。

requets-html的GitHub链接

学习过程

1、简单示例

开始构造请求：

from requests_html import HTMLSession
session = HTMLSession()

r = session.get('https://www.qidian.com/free')
print(r, type(r))

# <Response [200]> <class 'requests_html.HTMLResponse'>

HTMLSession请求返回的是一个HTMLResponse类

接下来进行HTML解析：

html = r.html
print(html, type(html))

# <HTML url='https://www.qidian.com/free'> <class 'requests_html.HTML'>

返回了一个解析后的HTML类。

对于它，我们可以像使用PyQuery的方法一样，对

最低0.47元/天解锁文章

qai987

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录