粗暴版分布式+IP池爬取微博签到数据

最新推荐文章于 2024-07-10 00:24:58 发布

那花

最新推荐文章于 2024-07-10 00:24:58 发布

阅读量917

点赞数

分类专栏： python zz爬虫 zz大数据项目

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41727987/article/details/104335871

版权

本文介绍了如何采用分布式策略并结合IP池爬取微博签到数据。通过指定微博cookie给单独进程，根据user_id分配任务，并利用手机自动切换4G热点实现多IP轮换。这种方法避免了代理问题，每天可请求约30万次，但硬盘读写速度可能成为瓶颈。

摘要由CSDN通过智能技术生成

问：如何分布式？

错误的回答：使用scrapy-redis分发待爬队列

正确的回答：指定单个微博cookie给单个进程，再把user_id%len(cookie)==cookie_id的用户指定给这个进程来爬取：

while user_idx < len(user_list):
    user = user_list[user_idx)
    ...
    user_idx += len(cookie)

然后多开。

…………

问：如何多IP？

错误的回答：使用代理，一旦HTTPERROR 418就换下一个，下一个更乖

正确的回答：在手机上下载一个自动执行动作的app：

用来每30秒开关一次手机4G：

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。