本文为自己学习爬虫工具requests_html的笔记,也希望可以帮到刚学习爬虫的同学。
简单介绍
requests_html是对requests库的第二次封装,其中添加了像pyquery这样的解析HTML库,可以使用pip 进行安装。
PS:requests_html仅支持python3.6以上(包括3.6)的版本。
学习过程
1、简单示例
开始构造请求:
from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://www.qidian.com/free')
print(r, type(r))
# <Response [200]> <class 'requests_html.HTMLResponse'>
HTMLSession请求返回的是一个HTMLResponse类
接下来进行HTML解析:
html = r.html
print(html, type(html))
# <HTML url='https://www.qidian.com/free'> <class 'requests_html.HTML'>
返回了一个解析后的HTML类。
对于它,我们可以像使用PyQuery的方法一样,对