python如何爬取动态网页数据

最新推荐文章于 2024-08-23 12:39:49 发布

RunnerJxc

最新推荐文章于 2024-08-23 12:39:49 发布

阅读量5.3k

点赞数 6

分类专栏： Python数据爬取文章标签： Python 获取动态数据 js渲染

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dick633/article/details/80712350

版权

1.引言

说到爬网页，我们一般的操作是先查看源代码或者审查元素，找到信息所在节点，然后用 beautifulsoup/xpth/re 来获取数据，这是我们对付静态网页的常用手段。
但大家也知道，现在的网页大多都是动态的了，即数据是通过js渲染加载的，对付静态网页那一套在这根本不讨好，所以，掌握爬取动态加载数据的方法就显得十分必要了。
下面以爬取中国电影网中国票房排行前500为例讲解下获取动态数据的一般步骤。

2.实例与步骤

2.1首先打开数据页面，右键选择审查元素，然后选择Network——>XHR,可以看到，现在里面什么都没有。
这里写图片描述

2.2然后点击浏览器的刷新按钮或者按F5刷新页面，可以看到，有一条数据出现了，这个链接就是获取数据的页面API，选择Response，可以看到，它是以Json格式返回的数据，我们需要的信息都在里面。
这里写图片描述

2.3点击页面上的下一页，多获取几条数据，以便找到它们之间的联系。

最低0.47元/天解锁文章

关注

6
点赞
踩
44

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

RunnerJxc CSDN认证博客专家 CSDN认证企业博客

码龄9年

72: 原创

23万+: 周排名

189万+: 总排名

33万+: 访问

: 等级

2172: 积分

112: 粉丝

152: 获赞

115: 评论

724: 收藏

私信

关注

分类专栏

最新评论

【linux系统故障】-网卡消失
我不是运维工程师: 网卡重启后可以用了，但是系统重启后又down掉了，这是什么问题
【openstack】无法访问身份管理下的项目、用户、组的解决办法
刘Kx: 能好吗，为什么我也是这个问题，和你一样找不到第三个，但是我好像重启失败了
Centos更改yum、epel为国内源
yuki_2000: 谢谢你解决了我的问题
【openstack】无法访问身份管理下的项目、用户、组的解决办法
我叫凉音: 这里边需要说一嘴，2.1操作里进行WEBROOT=‘/dashboard’的操作中的前两个文件没什么好说的，直接按路径找到修改就行了。主要的是第三个文件，我找到了文件的父路径也就是在js下，我没找到相同名称的js文件所以我就挨个打开查看，在文件中搜索的过程中发现有只有一个文件里的WEBROOT是大致符合要匹配的格式的，所以大胆修改了一下，后面按照博主的方式修改完，重启服务问题就解决了。不过第一次输网址忘记加/dashboard了，加上就好了
【openstack】无法访问身份管理下的项目、用户、组的解决办法
m0_65170147: 能不能问一下为什么需要这么操作吗 Y版本的这么操作无法进入没有Djano文件

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。