python html库_python爬虫新库:requests-html,一个库顶2个用

爬虫三步走:发送请求获取网页HTML解释网页HTML,得到数据或连接下载或保存数据现有的资料基本上都是每一步用一个库。大白学习爬虫第一步时,用得最多的库还是requests,第二步时会用BeautifulSoup库。现在requests作者出一个新的库:requests-html,它可以帮你用一个库,完成爬虫的第一步与第二步,使得写代码与运行也简便与快捷多了。requests-html只支持Pyt...
摘要由CSDN通过智能技术生成

爬虫三步走:

发送请求获取网页HTML

解释网页HTML,得到数据或连接

下载或保存数据

现有的资料基本上都是每一步用一个库。

大白学习爬虫第一步时,用得最多的库还是requests,第二步时会用BeautifulSoup库。

现在requests作者出一个新的库:requests-html,它可以帮你用一个库,完成爬虫的第一步与第二步,使得写代码与运行也简便与快捷多了。

requests-html只支持Python 3.6及更新的版本,所以使用老版本的Python的同学需要更新一下Python版本了。

安装:

pip install requests-html

使用

requests-html库核心是学习其HTML类

第一步:获取网页HTML:

from requests_html import HTMLSession

session = HTMLSession()

r = session.get("http://www.jianshu.com")

#第一步:获取网页HTML:

print(r.html.html)

#打印出简书的HTML网页代码

第二步:解释网页HTML,得到数据或连接

links和 absolute_links两个属性分别返回HTML对象所包含的所有链接和绝对链接(均不包含锚点)。

from requests_html import HTMLSession

session = HTMLSession()

r = session.g

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值