爬取并下载url不变的pdf文件

最新推荐文章于 2024-05-23 21:48:21 发布

BulletTech2021

最新推荐文章于 2024-05-23 21:48:21 发布

阅读量408

点赞数

分类专栏：数据分析文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BulletTech2021/article/details/119080756

版权

1 引言

为了更好的卖保险(导师要求)，需要下载保险业协会官网-信息披露中保险公司披露的pdf文件。保险公司很多，每家又有不少年度披露的pdf。同时，神奇的是，无论怎么点击页面，网页的url都没有发生变化。为了拒绝当人肉爬虫，我们再次尝试使用Python帮助我们高效、自动地下载这些pdf文件。

2 具体步骤

我们打开保险业协会网站，点击不同的科目，如保险公司年度信息披露，我们发现页面的url并没有发生变化。这时，请不要怀疑自己的眼睛或是砸烂电脑，我们应该合理地怀疑页面采取了某些异步请求(Ajax)的方式。
此时，我们需要找到发送真实请求的页面。我们打开开发者工具，在Network中勾选ALL，清空后重新点击我们要选取的科目，如关联交易合并披露。神奇的事情出现了，红框中标示出来了一个新的url，那么这个url是不是我们真正要找的OnePiece呢？

http://icid.iachina.cn/ICID/front/leafColComType.do?columnid=2016072012158397

Real url

我们进入此url。完蛋，这只是一个和上一页面神似但是长得更丑的网址。

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬取并下载url不变的pdf文件

1 引言为了更好的卖保险(导师要求)，需要下载保险业协会官网-信息披露中保险公司披露的pdf文件。保险公司很多，每家又有不少年度披露的pdf。同时，神奇的是，无论怎么点击页面，网页的url都没有发生变化。为了拒绝当人肉爬虫，我们再次尝试使用Python帮助我们高效、自动地下载这些pdf文件。2 具体步骤我们打开保险业协会网站，点击不同的科目，如保险公司年度信息披露，我们发现页面的url并没有发生变化。这时，请不要怀疑自己的眼睛或是砸烂电脑，我们应该合理地怀疑页面采取了某些异步请求(Ajax)的方
复制链接

扫一扫

专栏目录

BulletTech2021 CSDN认证博客专家 CSDN认证企业博客

码龄3年

47: 原创

39万+: 周排名

123万+: 总排名

8万+: 访问

: 等级

602: 积分

51: 粉丝

53: 获赞

30: 评论

410: 收藏

私信

关注

热门文章

分类专栏

最新评论

微信小程序爬虫
Jonathan Star: 这是开了charles 之后 https就会被解析吗
微信小程序爬虫
非议班的校长: pc端微信小程序的授权提示：”需要验证手机号，请到手机上进行操作” 这个如何解决
微信小程序爬虫
Changxing898: 另外我有一个疑问。。我在电脑复制网银里头的head和data数据，用python去模拟贵金属下单，得到的只有200状态码和空白内容。。网页那边，我同时也在提交，，除了200状态码，还能返回提交成功的订单信息。。urllib 难道也能被识别为机器人？？
微信小程序爬虫
Changxing898: 哎，，，我折腾半天charles爬到的数据都是没法解析。。。看样子是证书没搞对。。。
微信小程序爬虫
我是一只小竹杠: 什么虎狼之词。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。