爬虫怎么才能获取到js动态生成的数据

最新推荐文章于 2024-04-07 21:29:17 发布

滚菩提哦呢

最新推荐文章于 2024-04-07 21:29:17 发布

阅读量568

点赞数

文章标签： javascript 爬虫前端开发语言 ecmascript

本文链接：https://blog.csdn.net/weixin_35755823/article/details/129552235

版权

爬虫无法直接执行JavaScript，故无法获取动态生成的数据。解决方案包括使用模拟浏览器的爬虫，如Selenium，它们能渲染网页并执行JS，但速度慢且资源消耗大；另一种方法是利用服务端渲染技术，如Next.js或AngularUniversal，能在服务器端处理JS，提高效率。

摘要由CSDN通过智能技术生成

在爬虫中获取 JavaScript 动态生成的数据有一些技术难度。这是因为爬虫是运行在服务器端的程序，而 JavaScript 是运行在浏览器端的脚本语言。因此，爬虫无法直接运行 JavaScript 代码，也无法获取 JavaScript 代码动态生成的数据。

要解决这个问题，有几种方法可以尝试：

使用模拟浏览器的爬虫，这种爬虫使用浏览器内核(如 Chrome、Firefox 等)来渲染网页，并可以执行 JavaScript 代码，因此能够获取到 JavaScript 动态生成的数据。这种爬虫的优点是可以获取到几乎所有的数据，但速度慢，比较耗费资源。
使用服务端渲染技术，这

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

滚菩提哦呢

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

网络爬虫（1）----爬取JS动态数据（上）

03-11

5966

本文以单个例子为基础实现了最简单的python抓取动态脚本内容仅用于研究工具：360浏览器极速模式目标：新榜各大平台排行榜数据，如下图所示第一步，右键审查元素搞起，通过点击如下图所示右边的每个栏目，NETWORK抓包可以看到XHR（针对）第二步：获取请求参数，查看Headers 可知请求参数为：www.newrank.cn/xdnphb/main/v1/day/rank...

python爬虫js生成的url_网络数据抓取-JS动态生成数据-Python-requests爬虫

weixin_39837607的博客

11-24

1044

前面三篇文章介绍了如何利用Headers模拟浏览器请求，如何嵌套For循环抓取二级页面。但针对的都是Html文件数据，这一篇我们来看一下另外一种情况的数据以及更加复杂的Headers模拟。案例是拉勾网（一个招聘网站）抓取某个公司全部招聘信息，然后分析中大型人工智能公司的人才需求分布情况。这次我们使用Anaconda的Jupyter Notebook。1. 理解页面打开这个页面,这是思必驰科技（一家...

参与评论您还未登录，请先登录后发表或查看评论

抓取js动态生成的数据分析案例

weixin_34233679的博客

03-19

363

需求：爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的新闻数据。分析：　　1.首先通过分析页面会发现该页面中的新闻数据都是动态加载出来的，并且通过抓包工具抓取数据可以发现动态数据也不是ajax请求获取的动态数据（因为没有捕获到ajax请求的数据包...

Python 爬虫：获取 JS 动态内容—，大厂Python研发岗面试复盘

m0_56169789的博客

03-22

1653

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

Python 爬虫：获取 JS 动态内容——应用宝搜索应用!

热门推荐

hanchaobiao的博客

06-13

6万+

在编写爬虫软件时发现无法获取到新浪新闻评论的条数，最后发现因为它是存放在js中的，本文就讲述如何从js中获取页面需要的数据内容

python爬取网页的代码_python爬取网页的通用代码框架

weixin_39944944的博客

11-20

341

原博文2018-05-14 15:02 −#爬取网页的通用代码框架import requests def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() #如果状态不是200，引发HTTPError异常 r.encod...相关推荐2019-12-19 11:28 −1. ...

Python爬虫：抓取js生成的数据

qq_41250958的博客

11-09

6441

之前的NLP课程作业要求爬取一些科技新闻来训练语言模型，本文就简单来说一说用Python来爬取新闻的过程。虽然以前写过简单的爬虫，但是没有处理过浏览器动态加载数据的情况，这次碰到了就记录一下。这次爬取的新闻来源是新浪科技滚动新闻，打开之后网页长这样：该网页中包含了50条新闻，我们希望拿到上图中的新闻链接，然后发送request请求来得到新闻内容。但是查看该网页的源码后发现，这些新闻的链接并...

python爬虫爬取js生成的页面_爬虫之抓取js生成的数据

weixin_39906499的博客

11-30

1896

有很多页面，当我们用request发送请求，返回的内容里面并没有页面上显示的数据，主要有两种情况，一是通过ajax异步发送请求，得到响应把数据放入页面中，对于这种情况，我们可以查看关于ajax的请求，然后分析ajax请求路径和响应，拿到想要的数据；另外一种就是js动态加载得到的数据，然后放入页面中。这两种情况下，对于用户利用浏览器访问时，都不会发现有什么异常，会迅速的得到完整页面。其实我们之前学过...

scrapy定制爬虫-爬取javascript内容

weixin_44353800的博客

05-04

1507

js如何获取动态生成的dom节点

zj1361232的博客

06-02

3545

应用场景-植入js脚本植入js脚本对站点实现各种限制的难点在于，如何正确且及时的获取到需要操作的dom节点。需要进行操作的dom节点可能不是一开始就出现在文档流当中，所以使用常规获取节点的方式并不能取到要操作的节点。针对以上问题就需要有一个方法可以及时获取到节点（节点渲染到文档流中的时候及时获取到再进行对应的操作） listening()函数就是完成及时获取到动态节点的方法也是植入js脚本实现对站点各种限制的核心函数；实现思路：首先一个帧循环函数（setInterval）执行间隔就是速率，经过测

爬取JavaScript生成的内容

相信相信的力量

09-23

1170

要爬取JavaScript生成的内容，你需要使用一个支持JavaScript渲染的爬虫工具。以下是一些常用的工具和方法：使用Selenium：Selenium是一个自动化测试工具，可以模拟用户在浏览器中的操作。你可以使用Selenium来启动一个浏览器实例，然后让它执行JavaScript代码并获取生成的内容。使用Headless浏览器：Headless浏览器是没有图形界面的浏览器，可以在后台运行...

爬虫测试之无法爬取js动态生成的元素数据

wangshang1320的博客

01-14

2503

cheerio模块抓取的是网页源代码（大部分的抓取数据都是这样的），因此这里就抓取不到js动态生成的dom元素，查了很久，方法很少，大致是: 1.模拟js响应请求url 直接获取json数据(注意：涉及到目标网站的请求验证(token,加密等)以及跨域) 2.还有一种是使用selenium 这个我也没接触过具体就自己查吧（ps:毕竟本人也是萌新，而且我的重点不是这里，就暂时不...

爬取js包里数据的处理（处理为json）

qq_40932165的博客

01-14

330

爬虫处理js包里的数据，利用字符串处理为json

Python 网络爬虫利器：执行 JavaScript 实现数据抓取

z099164的博客

12-29

1414

在 Python 中执行 JavaScript 代码可以帮助完成多种任务，包括 Web 自动化、数据抓取、前端开发和 Web 应用集成。本文介绍了多种方法，包括使用内置库execjs和PyExecJS、Selenium 与 WebDriver，以及调用 Node.js 进程。根据具体的需求和使用情况，选择适合的方法，可以更高效地执行 JavaScript 代码，从而实现更多功能。

Java 解决 Jsoup 因为未加载完毕获取不到页面数据

zuichu_2001的博客

09-23

2918

使用 Jsoup 爬取页面数据页面也因为加载获取不到我采用了Selenium 自动化测试 + Jsoup 结合 //根据谷歌浏览器版本下载 chromedriver.exe 下载地址 http://npm.taobao.org/mirrors/chromedriver System.setProperty(“webdriver.chrome.driver”, “F:\Python39\chromedriver.exe”); //创建一个WebDriver WebDriver driver = new C