python爬虫微博粉丝数据_Scrapy 爬取新浪微博数据分析男女粉丝数量

最新推荐文章于 2021-04-27 22:26:27 发布

weixin_39869043

最新推荐文章于 2021-04-27 22:26:27 发布

阅读量655

点赞数

文章标签： python爬虫微博粉丝数据

本文介绍了如何使用Scrapy爬虫从微博抓取特定用户的评论、点赞和转发数据，通过用户ID获取性别信息，进一步分析男女粉丝比例。通过爬取胡歌的微博，展示了不同处理方式下男女粉丝的占比情况。

摘要由CSDN通过智能技术生成

通过之前爬取新浪微博发现，无论通过http://m.weibo.cn这里，还是http://weibo.cn这里，都没办法获取全部粉丝数据

那如果我想分析一个明星的男女粉丝数据怎么办，比如想知道某明星的男女粉丝占比，可以通过这样一个思路来解决这个问题采集该明星的所有微博

获取每条微博中评论、点赞、转发的用户id

根据id获取该用户数据(性别)

用户数据存储到数据库中

存储到数据库中的用户数据允许重复，出现过一次该用户数据就代表他进行过评论、点赞、转发某一项中的一次；凡是有参与过的亲密值加一，当这个值超过一定限度时(比如说10或者20)，我们就认为该用户是该明星的粉丝

在http://m.weibo.cn站点中所发所有微博url还是很容易获取

start_urls = ['https://m.weibo.cn/api/container/getIndex?containerid=1076031223178222&page={}' .format(i) for i in range(1, 376)]

这里我们爬取胡歌的粉丝为例，谁叫人们总说胡歌男粉多呢 containerid=1076031223178222 中 1223178222 为用户id，可以自行修改换成其他用户 id

这里可以看到一共有多少微博，一个url大概10条微博，可以试出来大概多少页

代码

import scrapy

import json

from scrapy import Request

from ..items import WeiboFansSpiderItem

class WeiboFansSpdSpider(scrapy.Spider):

name = 'weibo_fans_spd'

start_urls = ['https://m.weibo.cn/api/container/getIndex?containerid=1076031223178222&page={}'

.format(i) for i in range(1, 376)]

repost_url = 'https://m.weibo.cn/api/statuses/repostTimeline?id={}&page={}'

comment_url = 'https://m.weibo.cn

最低0.47元/天解锁文章

weixin_39869043

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫微博粉丝数据_Scrapy 爬取新浪微博数据分析男女粉丝数量

通过之前爬取新浪微博发现，无论通过http://m.weibo.cn这里，还是http://weibo.cn这里，都没办法获取全部粉丝数据那如果我想分析一个明星的男女粉丝数据怎么办，比如想知道某明星的男女粉丝占比，可以通过这样一个思路来解决这个问题采集该明星的所有微博获取每条微博中评论、点赞、转发的用户id根据id获取该用户数据(性别)用户数据存储到数据库中存储到数据库中的用户数据允...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。