爬取动态加载的数据

最新推荐文章于 2024-07-19 15:31:58 发布

superhero_q

最新推荐文章于 2024-07-19 15:31:58 发布

阅读量708

点赞数 1

分类专栏： python学习文章标签： python 爬虫 request

本文链接：https://blog.csdn.net/superhero_q/article/details/111474600

版权

本文介绍了如何确定和爬取动态加载的网页数据。通过分析企业详情页面，发现数据来源于http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList的POST请求，其中关键参数id来自于响应内容。每家企业的id存储在ata_dic['list']中，可以通过解析获取并用于请求详情数据。

摘要由CSDN通过智能技术生成

如何确定动态加载的数据

爬取企业详情http://scxk.nmpa.gov.cn:81/xk/
分析某一家企业的详情页数据是从哪里来的
右键直接在页面源代码中查找公司名称，如果找不到数据就表示是动态加载的.

怎么爬取数据

按照下面步骤，将所需要的url获得,请求到的url是http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList，与此同时我们也知道获得的方式是post请求。
然后我们点击某一个公司我们可以发现：该请求携带一个参数id:xxxxx。如http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=b3febf42d6b64e039e5cbd2812a9539d，通过观察我们可以看到每个url除了id不同，别的都相同。所以我们可以得出获取这个公司的方法为:
1、需要知道每一家企业的id
2、每一家企业的id值应该存储在对应的请求或者响应中

下面展示一些 代码。

首先需要导入requests模块
获取其首页的url，因为其为post请求，需要封装下面所对应的请求参数。
通过打开每一家公司我们可以知道每一个公司网页的url出来id不同别的都一样。所以我们需要获得id。通过解析网页我们可以知道，id存在与ata_dic[‘list’]中，所以我们可以通过解析获得id。
对每一家id对应的企业详情数据进行捕获（发起请求）

#要请求到每一家企业的id,对应的header里
import requests
url='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'#首页的url
data={

最低0.47元/天解锁文章

superhero_q

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录