爬取并下载url不变的pdf文件

1 引言

为了更好的卖保险(导师要求),需要下载保险业协会官网-信息披露中保险公司披露的pdf文件。保险公司很多,每家又有不少年度披露的pdf。同时,神奇的是,无论怎么点击页面,网页的url都没有发生变化。为了拒绝当人肉爬虫,我们再次尝试使用Python帮助我们高效、自动地下载这些pdf文件。

2 具体步骤

我们打开保险业协会网站,点击不同的科目,如保险公司年度信息披露,我们发现页面的url并没有发生变化。这时,请不要怀疑自己的眼睛或是砸烂电脑,我们应该合理地怀疑页面采取了某些异步请求(Ajax)的方式。
此时,我们需要找到发送真实请求的页面。我们打开开发者工具,在Network中勾选ALL,清空后重新点击我们要选取的科目,如关联交易合并披露。神奇的事情出现了,红框中标示出来了一个新的url,那么这个url是不是我们真正要找的OnePiece呢?

http://icid.iachina.cn/ICID/front/leafColComType.do?columnid=2016072012158397

Real url

我们进入此url。完蛋,这只是一个和上一页面神似但是长得更丑的网址。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值