微博粉丝走势监控-爬虫

爬虫任务:

爬取粉丝数量,超话粉丝,阅读量,排名,帖子数量
由此可见主要需要两个网址,一个是微博主页,一个是超话主页

爬取

个人比较喜欢模拟浏览器爬取,以前有文章写过,不过这里并不是非要模拟浏览器。爬取建议大家用手机端的网址(网页结构比较简单)
网址是:https://m.weibo.cn

爬取主页

进入到要爬取人的主页:在搜索框输入,然后查找
在这里插入图片描述
这个粉丝数量就是我们要获取的目标
F12进入开发者模式,点击小箭头,点击粉丝数
在这里插入图片描述
可以看到对应的位置
在这里插入图片描述
右键点击span标签,复制selector即可获取到粉丝数

text = browser.find_element_by_css_selector('#app > div:nth-child(1) > div:nth-child(1) > div:nth-child(1) > div > div.item-list > div.mod-fil-fans > div:nth-child(2)')
nums = text.text

爬取超话

基本同理,如果你想爬取的人有超话,记录网址,然后进入网址,找到对应元素

text = browser.find_element_by_css_selector('#app > div:nth-child(1) > div:nth-child(1) > div.page-cover > div.cover-wrap.bar > div > div > div > a > div:nth-child(2) > h4:nth-child(1)')
rank= browser.find_element_by_css_selector('#app > div:nth-child(1) > div:nth-child(1) > div.page-cover > div.cover-wrap.bar > div > div > div > div > div > div').text

分别对应下面两个元素
在这里插入图片描述
如果想要把文字去掉,还有阅读,帖子,粉丝单独显示,用正则,我有些时间的话简单说一下。
最后我的效果大概是这样
在这里插入图片描述
我是部署在阿里云服务器上的,大概就是这么一个效果,五分钟更新一次

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值