twitter推特全量用户收集与发文采集
twitter推特全量用户收集与发文采集
为了研究各国的总统选举期间的民调,x项目需要M国全量推特用户的发文数据,以此为背景,需要将推特大部分用户(70%)的推特uid,screen_name,name,local等信息收集起来
用传统方式,按用户名搜索,从粉丝栏采集等方式,只能获取到伪全量用户,想要获得全量用户数据,即要通过遍历uid或者直接入侵推特系统
2020年推特日活用户1.7亿,月活用户3.9亿,注册用户预计28亿,要是将这些用户数据简单的uid-screen_name-name-local的方式存txt,预计文件大小达494G,压缩后文件也有80G左右,因此,靠普通的爬虫方式进行爬取,我想很难收集这么多的用户数据
因此,想要获得完整的推特用户数据做社科研究,要么直接找官方合作,要么找一个专业的推特爬虫做数据支持。
现实问题是,社交巨头的用户信息,与现实生活中工业系统的石油一样,中国公司像问美国公司要巨量的社交用户数据做社科研究是不现实的,我坦白,我从宽,我研究twitter采集多年