requests_html学习手册(1)

本文是关于requests_html库的学习笔记,介绍了如何构造请求、解析HTML、使用absolute_links获取绝对链接以及运用search进行正则匹配。requests_html是requests的二次封装,支持Python3.6+,提供类似PyQuery的API。
摘要由CSDN通过智能技术生成

本文为自己学习爬虫工具requests_html的笔记,也希望可以帮到刚学习爬虫的同学。

简单介绍

requests_html是对requests库的第二次封装,其中添加了像pyquery这样的解析HTML库,可以使用pip 进行安装。

PS:requests_html仅支持python3.6以上(包括3.6)的版本。

requets-html的GitHub链接

学习过程

1、简单示例

开始构造请求:

from requests_html import HTMLSession
session = HTMLSession()

r = session.get('https://www.qidian.com/free')
print(r, type(r))

# <Response [200]> <class 'requests_html.HTMLResponse'>

HTMLSession请求返回的是一个HTMLResponse类

接下来进行HTML解析:

html = r.html
print(html, type(html))

# <HTML url='https://www.qidian.com/free'> <class 'requests_html.HTML'>

返回了一个解析后的HTML类

对于它,我们可以像使用PyQuery的方法一样,对

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值