动态数据爬取

最新推荐文章于 2024-08-23 12:39:49 发布

潘小榭

最新推荐文章于 2024-08-23 12:39:49 发布

阅读量989

点赞数

分类专栏： python 文章标签：互联网

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/panxiaoxie/article/details/75035730

版权

本文讲述了如何在新三板上爬取400家互联网相关上市公司的名称和所属类型。面对动态加载的页面，作者通过分析页面请求，利用开发者工具找到JavaScript文件请求的URL，从而成功获取所需数据。

摘要由CSDN通过智能技术生成

关于爬虫的知识很早之前就学过，但时间久了，不用的话就都忘了。还好当时笔记有写在我的印象笔记上～～

1）今天公司要求在新三板上爬取部分上市公司数据，要求400家公司的名称，以及其所属类型，创/基。
全国中小企业股份转让系统
需要爬取的内容：选取行业类型为互联网相关的公司，然后爬取相应的公司名字，公司代码中基/创

2）查看网页源代码，发现里面并没有需要的核心内容。
通过分析页面请求的方法爬取动态加载页面的思路,找到那个发请求的JavaScript文件所发的请求。
打开开发者工具，选择Network选项卡，选择XHR or JS
这里写图片描述
点第二页，发现XHR多出来一项，这就是JS文件请求。

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。