动态数据爬取

本文讲述了如何在新三板上爬取400家互联网相关上市公司的名称和所属类型。面对动态加载的页面,作者通过分析页面请求,利用开发者工具找到JavaScript文件请求的URL,从而成功获取所需数据。
摘要由CSDN通过智能技术生成

关于爬虫的知识很早之前就学过,但时间久了,不用的话就都忘了。还好当时笔记有写在我的印象笔记上~~

1)今天公司要求在新三板上爬取部分上市公司数据,要求400家公司的名称,以及其所属类型,创/基。
全国中小企业股份转让系统
需要爬取的内容:选取行业类型为互联网相关的公司,然后爬取相应的公司名字,公司代码中基/创

2)查看网页源代码,发现里面并没有需要的核心内容。
通过分析页面请求的方法爬取动态加载页面的思路,找到那个发请求的JavaScript文件所发的请求。
打开开发者工具,选择Network选项卡,选择XHR or JS
这里写图片描述
点第二页,发现XHR多出来一项,这就是JS文件请求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值