抓取知网摘要、搜狗微信文章、搜狗新闻的爬虫

最新推荐文章于 2024-03-26 21:54:07 发布

chinwuDebug

最新推荐文章于 2024-03-26 21:54:07 发布

阅读量359

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chinwuforwork/article/details/84867954

版权

个人项目，代码已上传至我的github。
只支持python3.
需要说明的是，本文中介绍的都是小规模数据的爬虫（数据量<1G），大规模爬取需要会更复杂，本文不涉及这一块。另外，代码细节就不过多说了，只将一个大概思路以及趟过的坑。

搜狗微信文章抓取

目标：在搜狗微信模块下搜索关键词的文章，抓取链接保存文章标题，来源，时间，内容的内容
采取的策略：selenium模拟搜索，登陆扫码采用手动扫描的模式，登陆后通过不同的关键词进行搜索，翻页等操作。
遇到的坑：
1.SogouWechat这个库只能抓到10个items（自己加入cookies也只能抓10个好像，反正我没成功的抓多个）
2.登陆只想到手动扫描这一块，没有其他更好的方法
3.搜索出来的文章链接时临时性的，要及时request并保存
4.在模拟翻页操作的时候，建议模拟一下页面滚动
5.网速不好的情况，要有sleep，要不然chrome会报错

搜狗新闻抓取

目标：在搜狗新闻搜索中搜索关键，将所有新闻的标题，时间，内容保存下来
采取的策略：

request.get关键词，因为搜狗新闻就不涉及到cookies的问题，直接请求
2.ip隧道代理请求（阿布云代理）
3.news的具体页面，如果request获取不到文本，用selenium抓

遇到的坑：参照以上第三点。

知网摘要信息抓取

目标：指定文献来源或者单位，抓所有的文献的摘要，作者，时间等等
采取的策略：
1.selenium模拟登陆，得到搜索页面
2.ajax抓包，构造请求发送到服务器
3.自动打码（云打码，效果还可以）
4.ip隧道代理
5.翻页用request构造
遇到的坑：
1.必须要登陆才能看到所有文献
2.打码失败的话one more time
3.数据量有点多，及时保存数据，我没有用数据库，我直接写到文件了

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。