一.scv介绍:
-
- Csv
- Comma-separated-values,逗号分隔值文件
- Csv
二.开发细节与风险控制
开发细节当中即伴随着各种各样的风险,并要即时反馈和处理风险,如工作量评估、技术难度评估、人员变更、需求变更等等,故我们将两者放在一起,不可拆分。
三.开发细节:
3.1 确定源数据文件集合
来源渠道:1.自行写网络爬虫,研发成本高
2.公开数据集
3.第三方数据买卖公司:无研发成本,需付费。
3.2 渠道选择:
公开数据集
3.3 确定数据集:
2012年自年初到年末的约2.2亿条微博数据
共52周的数据,按天粒度来存储,合计364天数据,即364个zip包,如下列表
3.4确定数据文件格式
解压后为csv格式文件
3.5 确定数据结构及Demo数据查看
数据表结构
序号 |
字段名称 |
字段解释 |
备注 |
1 |
mid |
消息的唯一id |
对官方mid的加密后的结果 |
2 |
retweeted_status_mid |
转发的原创微博的mid |
如果该博文是转发,此值原博文的mid值 |
3 |
uid |
微博主的id值 |
|
4 |