在用BeautifulSoup解析HTML前对其中以JavaScript渲染部分的处理

现在不少网站的内容在JavaScript的代码中,为了能让我们看到其中的内容,浏览器会对JavaScript代码进行渲染,得到其中的内容后再呈现到我们面前。然而,当我们需要对网站进行文本或数据收集的时候,我们往往不使用浏览器,而是通过爬虫程序。显然,爬虫程序不同于一般的浏览器,能自动或默认地对HTML文件中的JavaScript代码进行渲染。因此,如果我们的目标镶嵌在JavaScript中,那么我们爬到的数据往往就会缺少了我们的目标。

 

解决这个问题大致有两种方案:一是直接(或显示)地模拟浏览器的行为,比如用Selenium模块,该模块就提供了返回渲染后HTML文本的功能;显然,第二种方法就是隐式渲染,我们不会看到浏览器被打开,链接被打开等等一系列的行为,但代码运行后最终也能得到渲染后的结果。现在主要介绍一下第二种方法。相比于比较笨重的Selenium,这种方法会用到一个轻量级的HTML解析模块:requests-html。

 

安装

安装比较简单,在命令行运行:

pip install requests-html
或者
pip3 install requests-html

即可安装该模块。

 

运用

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值