爬虫三步走:
发送请求获取网页HTML
解释网页HTML,得到数据或连接
下载或保存数据
现有的资料基本上都是每一步用一个库。
大白学习爬虫第一步时,用得最多的库还是requests,第二步时会用BeautifulSoup库。
现在requests作者出一个新的库:requests-html,它可以帮你用一个库,完成爬虫的第一步与第二步,使得写代码与运行也简便与快捷多了。
requests-html只支持Python 3.6及更新的版本,所以使用老版本的Python的同学需要更新一下Python版本了。
安装:
pip install requests-html
使用
requests-html库核心是学习其HTML类
第一步:获取网页HTML:
from requests_html import HTMLSession
session = HTMLSession()
r = session.get("http://www.jianshu.com")
#第一步:获取网页HTML:
print(r.html.html)
#打印出简书的HTML网页代码
第二步:解释网页HTML,得到数据或连接
links和 absolute_links两个属性分别返回HTML对象所包含的所有链接和绝对链接(均不包含锚点)。
from requests_html import HTMLSession
session = HTMLSession()
r = session.g