爬取人民日报_抓取人民日报

最新推荐文章于 2024-04-01 09:31:25 发布

VIP文章 weixin_39895486

最新推荐文章于 2024-04-01 09:31:25 发布

阅读量1.9k

点赞数

文章标签：爬取人民日报

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39895486/article/details/111948323

版权

1 分析

抓取人民日报里面的新闻详情先打开，然后查看网页源码，发现是一堆js，并没有具体的每个新闻的url详情，于是第一反应，肯定是js动态加载拼接的url。

然后接着按f12 查看，就看url，发现出来了好多url然后点击具体的某一个新闻详情页面，查看url，把这个url的后面两个数字其中一个拿到访问主页的时候，f12抓包结果里面去查找，发现一个url，点击这个url，发现preview里面有好多数据，我第一反应，肯定是每个新闻数据了。看到这些数据里面有两个ID，联想到刚刚访问具体新闻详情页面也有两个数字，肯定，具体新闻页面肯定是https://wap.peopleapp.com/article 加上两个ID形成的。于是试了一下拼接一个url访问，果然是。于是乎只要抓到这个url，就能获取到每个新闻的详情页了。

但这个抓到的url只加载了10条，我于是想改改里面的show_num值，发现请求失败，仔细看这个url，有个securitykey这个应该是js根据具体算法算出来的，看了一下那个拼接成url的js，发现看着有点头大，算了，只要我能一直抓这类url就就行了

发现只要我页面往下翻，就会新加载一条，于是我只要能解决两个问题：

1.往下翻页的问题，让这个数据url给加载出来

2.把这个url抓取到日志里面利用脚本访问，就能获取到数据了

查看了网上一些文档，最后决定用 python 的 selenium 这个模块，它是程序打开本地的浏览器进行操作，它里面有个方法execute_script('window.scrollTo(0, document.body.scrollHeight)') 就是下翻页的，利用这个就能一直把后面的那个数据url给加载出来了。

第二个就是解决把这个数据url给抓出来，我就用fiddler来进行抓包(这里抓包工具，根据你们自己的选择，推荐一个：mitmproxy，这也是抓包神器&#

最低0.47元/天解锁文章

weixin_39895486

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬取人民日报_抓取人民日报

1 分析抓取人民日报里面的新闻详情先打开，然后查看网页源码，发现是一堆js，并没有具体的每个新闻的url详情，于是第一反应，肯定是js动态加载拼接的url。然后接着按f12 查看，就看url，发现出来了好多url然后点击具体的某一个新闻详情页面，查看url，把这个url的后面两个数字其中一个拿到访问主页的时候，f12抓包结果里面去查找，发现一个url，点击这个url，发现preview里面有好...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。