python微博_「Python」 - 微博数据分析

这篇博客介绍了如何使用Python进行微博数据分析,包括计算1天内微博数据总量、唯一user_id数量和weibo_id数量,并展示了发微博最多的Top 100用户。通过读取文件并遍历,利用字典统计user_id和weibo_id,最后使用shell命令提供了另一种解决方案。
摘要由CSDN通过智能技术生成

按照现在流行的话来说,加了个学习社群,会有人抛出各式各样的问题,可以用shell解决,也可以用python。

一、微博数据分析

某社交网络数据,完成以下任务:

下载微博1天数据,地址:http://101.236.63.184:12345/weibo/

* weibo.top10wan,测试文件,包含10万条数据记录

* weibo.all,生产文件,千万量级数据记录

* 实验代码在测试文件上跑,最终在生产文件上跑出结果

任务一:算出微博1天数据总量;微博发文user_id总量(uniq的user_id的数量);微博文章总量(uniq的weibo_id的总量)

* 思路:读取文件,遍历每一行,统计行数;

* 获取user_id和weibo_id作为key存入dict,遇到相同key,value++

任务二:计算发微博(weibo_id)最多的Top 100用户

* 将user_id按照dict的value排序,输出dict即可

根据获得到的文件,稍微观察下格式,weibo数据字段和含义,在文件中字段依次排列,用\t隔开。

| 字段 | 列说明 | data |

|:------------------|:--------------------------------|:------|

|id |自增字段,全局唯一 |19341526007

|crawler_time |抓取时间 |2018-05-17 00:0

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值