在用BeautifulSoup解析HTML前对其中以JavaScript渲染部分的处理

最新推荐文章于 2024-07-27 12:20:46 发布

weixin_30730151

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量817

点赞数 1

文章标签： python javascript ViewUI

原文链接：http://www.cnblogs.com/tspeaking/p/10651985.html

版权

现在不少网站的内容在JavaScript的代码中，为了能让我们看到其中的内容，浏览器会对JavaScript代码进行渲染，得到其中的内容后再呈现到我们面前。然而，当我们需要对网站进行文本或数据收集的时候，我们往往不使用浏览器，而是通过爬虫程序。显然，爬虫程序不同于一般的浏览器，能自动或默认地对HTML文件中的JavaScript代码进行渲染。因此，如果我们的目标镶嵌在JavaScript中，那么我们爬到的数据往往就会缺少了我们的目标。

解决这个问题大致有两种方案：一是直接（或显示）地模拟浏览器的行为，比如用Selenium模块，该模块就提供了返回渲染后HTML文本的功能；显然，第二种方法就是隐式渲染，我们不会看到浏览器被打开，链接被打开等等一系列的行为，但代码运行后最终也能得到渲染后的结果。现在主要介绍一下第二种方法。相比于比较笨重的Selenium，这种方法会用到一个轻量级的HTML解析模块：requests-html。

安装

安装比较简单，在命令行运行：

pip install requests-html
或者
pip3 install requests-html

即可安装该模块。

运用

最低0.47元/天解锁文章

weixin_30730151

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
在用BeautifulSoup解析HTML前对其中以JavaScript渲染部分的处理

现在不少网站的内容在JavaScript的代码中，为了能让我们看到其中的内容，浏览器会对JavaScript代码进行渲染，得到其中的内容后再呈现到我们面前。然而，当我们需要对网站进行文本或数据收集的时候，我们往往不使用浏览器，而是通过爬虫程序。显然，爬虫程序不同于一般的浏览器，能自动或默认地对HTML文件中的JavaScript代码进行渲染。因此，如果我们的目标镶嵌在JavaScript中，那么我...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。