爬虫入门——记JS代码加载内容处理

最新推荐文章于 2024-05-29 15:23:22 发布

捉虫大仙里

最新推荐文章于 2024-05-29 15:23:22 发布

阅读量2.3w

点赞数 1

分类专栏：捉虫半仙高级爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxb18711871497/article/details/81741852

版权

高级爬虫同时被 2 个专栏收录

35 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

网页内容一般就是指我们最终在网页上看到的内容，但是这个过程其实并不是网页的代码里面直接包含内容这么简单，所以对于很多新人而言，会遇到很多问题，比如：

明明在页面用Chrome或者Firefox进行审查元素时能看到某个HTML标签下包含内容，但是抓取的时候为空。

很多内容一定要在页面上点击某个按钮或者进行某个交互操作才能显示出来。

所以对于很多新人的做法是用某个语言别人模拟浏览器操作的库，其实就是调用本地浏览器或者是包含了一些执行javascript的引擎来进行模拟操作抓取数据，但是这种做法显然对于想要大量抓取数据的情况下是效率非常低下，并且对于技术人员本身而言也相当于在用一个盒子，那么对于这些内容到底是怎么显示在网页上的呢？

主要分为以下几种情况：

网页包含内容这种情况是最容易解决的，一般来讲基本上是静态网页已经写死的内容，或者动态网页，采用模板渲染，浏览器获取到HTML的时候已经是包含所有的关键信息，所以直接在网页上看到的内容都可以通过特定的HTML标签得到javascript代码加载内容，这种情况是由于虽然网页显示时，内容在HTML标签里面，但是其实是由于执行js代码加到标签里面的，所以这个时候内容在js代码里面的，而js的执行是在浏览器端的操作，所以用程序去请求网页地址的时候，得到的response是网页代码和js的代码，所以自己在浏览器端能看到内容，解析时由于js未执行，肯定找到指定HTML标签下内容肯定为空，这个时候的处理办法，一般来讲主要是要找到包含内容的js代码串，然后通过正则表达式获得相应的内容，而不是解析HTML标签。

捉虫大仙里

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫入门——记JS代码加载内容处理

网页内容一般就是指我们最终在网页上看到的内容，但是这个过程其实并不是网页的代码里面直接包含内容这么简单，所以对于很多新人而言，会遇到很多问题，比如：明明在页面用Chrome或者Firefox进行审查元素时能看到某个HTML标签下包含内容，但是抓取的时候为空。很多内容一定要在页面上点击某个按钮或者进行某个交互操作才能显示出来。所以对于很多新人的做法是用某个...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。