按照现在流行的话来说,加了个学习社群,会有人抛出各式各样的问题,可以用shell解决,也可以用python。
一、微博数据分析
某社交网络数据,完成以下任务:
下载微博1天数据,地址:http://101.236.63.184:12345/weibo/
* weibo.top10wan,测试文件,包含10万条数据记录
* weibo.all,生产文件,千万量级数据记录
* 实验代码在测试文件上跑,最终在生产文件上跑出结果
任务一:算出微博1天数据总量;微博发文user_id总量(uniq的user_id的数量);微博文章总量(uniq的weibo_id的总量)
* 思路:读取文件,遍历每一行,统计行数;
* 获取user_id和weibo_id作为key存入dict,遇到相同key,value++
任务二:计算发微博(weibo_id)最多的Top 100用户
* 将user_id按照dict的value排序,输出dict即可
根据获得到的文件,稍微观察下格式,weibo数据字段和含义,在文件中字段依次排列,用\t隔开。
| 字段 | 列说明 | data |
|:------------------|:--------------------------------|:------|
|id |自增字段,全局唯一 |19341526007
|crawler_time |抓取时间 |2018-05-17 00:0