爬取人民日报_抓取人民日报

1 分析

抓取人民日报里面的新闻详情 先打开,然后查看网页源码,发现是一堆js,并没有具体的每个新闻的url详情,于是第一反应,肯定是js动态加载拼接的url。

然后接着按f12 查看,就看url,发现出来了好多url然后点击具体的某一个新闻详情页面,查看url,把这个url的 后面两个数字其中一个拿到访问主页的时候,f12抓包结果里面去查找,发现一个url,点击这个url,发现preview里面有好多数据,我第一反应,肯定是每个新闻数据了。看到这些数据里面有两个ID,联想到刚刚访问具体新闻详情页面也有两个数字,肯定,具体新闻页面肯定是https://wap.peopleapp.com/article  加上两个ID形成的。于是试了一下拼接一个url访问,果然是。于是乎只要抓到这个url,就能获取到每个新闻的详情页了。

但这个抓到的url只加载了10条,我于是想改改里面的show_num值,发现请求失败,仔细看这个url,有个securitykey这个应该是js根据具体算法算出来的,看了一下那个拼接成url的js,发现看着有点头大,算了,只要我能一直抓这类url就就行了

发现只要我页面往下翻,就会新加载一条,于是我只要能解决两个问题:

1.往下翻页的问题,让这个数据url给加载出来

2.把这个url抓取到日志里面利用脚本访问,就能获取到数据了

查看了网上一些文档,最后决定用 python 的 selenium 这个模块,它是程序打开本地的浏览器进行操作,它里面有个方法execute_script('window.scrollTo(0, document.body.scrollHeight)') 就是下翻页的,利用这个就能一直把后面的 那个数据url给加载出来了。

第二个就是解决把这个数据url给抓出来,我就用fiddler来进行抓包(这里抓包工具,根据你们自己的选择,推荐一个:mitmproxy,这也是抓包神器&#

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值