练习小项目：微博全站用户info抓取

最新推荐文章于 2024-05-02 07:54:51 发布

今天周几

最新推荐文章于 2024-05-02 07:54:51 发布

阅读量345

点赞数 1

分类专栏：爬虫学习文章标签： python flask 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/riiki/article/details/106111275

版权

本文介绍了作者作为一个自学爬虫的新手，如何利用scrapy、pyecharts、flask和redis等技术抓取并分析微博用户信息，包括登录策略、爬取全站用户的方法以及数据的展示和存储。通过关注特定用户，解析其关注列表，逐步爬取全站用户，并用正则表达式提取关键数据。最后通过flask和echarts展示了年龄和地域分布的分析结果。

摘要由CSDN通过智能技术生成

作为大学毕业后就没有摸过程序的我，借着疫情自学爬虫2个月的菜鸡，写这个项目的确花费了不少的时间，翻阅了无数技术博客，官方文档，包括github上的一些项目（大神写出的代码可读性确实很高，值得学习），不过鉴于爬虫的时效性，很多项目都已经不能用相同的思路去实现了。经过自己的反复尝试，通过以下思路实现微博全用户的爬取,并做了简单的数据展示。
和大家分享分享我的思路，共同学习，共同进步。
自定需求

门户网站：https://weibo.com/
使用技术：scrapy，pyecharts，flask，redis，selenium
爬取内容：user_info中部分信息，并统计微博使用人群的年龄与地域

开始

第一步先理清一下思路
首先，关于登录。scrapy框架本身就是基于多线程爬取，爬取速度相对较快，为了不被封ip，所以先建立一个ip池（爬西刺免费代理的前2页），爬取微博数据前先判断一次，保存其中可用ip，再在爬微博时，发送每一个请求都随机random出一个代理ip。然后，因为微博涉及到登录，所以用selenium驱动浏览器，让用户输入自己的用户名密码及验证码（虽说也可以通过打码平台或者OCR识别，不过个人觉得，数据不算太海量的情况下，手动输入更方便直观），登录后取出cookie，用于后续爬取。
其次，如何爬全站。我的思路是，事先用刚刚登录的账号

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。