练习小项目:微博全站用户info抓取

本文介绍了作者作为一个自学爬虫的新手,如何利用scrapy、pyecharts、flask和redis等技术抓取并分析微博用户信息,包括登录策略、爬取全站用户的方法以及数据的展示和存储。通过关注特定用户,解析其关注列表,逐步爬取全站用户,并用正则表达式提取关键数据。最后通过flask和echarts展示了年龄和地域分布的分析结果。
摘要由CSDN通过智能技术生成

作为大学毕业后就没有摸过程序的我,借着疫情自学爬虫2个月的菜鸡,写这个项目的确花费了不少的时间,翻阅了无数技术博客,官方文档,包括github上的一些项目(大神写出的代码可读性确实很高,值得学习),不过鉴于爬虫的时效性,很多项目都已经不能用相同的思路去实现了。经过自己的反复尝试,通过以下思路实现微博全用户的爬取,并做了简单的数据展示。
和大家分享分享我的思路,共同学习,共同进步。
自定需求

  • 门户网站:https://weibo.com/
  • 使用技术:scrapy,pyecharts,flask,redis,selenium
  • 爬取内容:user_info中部分信息,并统计微博使用人群的年龄与地域

开始

  • 第一步先理清一下思路
  • 首先,关于登录。scrapy框架本身就是基于多线程爬取,爬取速度相对较快,为了不被封ip,所以先建立一个ip池(爬西刺免费代理的前2页),爬取微博数据前先判断一次,保存其中可用ip,再在爬微博时,发送每一个请求都随机random出一个代理ip。然后,因为微博涉及到登录,所以用selenium驱动浏览器,让用户输入自己的用户名密码及验证码(虽说也可以通过打码平台或者OCR识别,不过个人觉得,数据不算太海量的情况下,手动输入更方便直观),登录后取出cookie,用于后续爬取。
  • 其次,如何爬全站。我的思路是,事先用刚刚登录的账号
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值