Python爬虫实战——requests-html

编写爬虫时requests+BeautifulSoup是一对完美的组合,现在requests库的作者又发布了一个功能强大的新库requests-html

用过requests库的同学都应该都喜欢他的简洁优雅,现在requests-html同样优雅,而且从名称可以看出应该是解析html的库,下面先简单的介绍一下使用方法,然后再来编写一个爬虫

从requests-html的Github的主页,我们可以看到这个库有以下功能特点:

  • 支持JavaScript
  • 支持CSS选择器。
  • 支持xpath选择器
  • 模拟用户代理
  • 自动重定向
  • 连接池和cookie持久性
  • 支持异步

安装requests-html

pip install requests-html
  • 需要注意的是这个库目前只支持python3.6版本

基本使用

学过requests库的同学看到requests-html的api应该会很熟悉,使用方法基本一致,不同的是使用requests编写爬虫时,要先把网页爬取下来,然后再交给BeautifulSoup等一些html解析库,现在可以直接解析了,下面我们通过小案例来感受一下

from requests_html import HTMLSession

session = HTMLSession()

def parse():
    r = session.get('http://www.qdaily.com/')
    # 获取首页新闻标签、图片、标题、发布时间
    for x in r.html.find('.packery-item'):
        yield {
   
            'tag': x.find('.category')[0].text,
            'image': x.find('.lazyload&#
  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值