最近因为论文不得已去接触KDD2012的腾讯微博数据集,一开始是打算自己用小的数据集得到结论,结果是too young too simple.其实一开始就应该硬着头皮去对数据做简单的处理和分析,现在先说一下初步的处理.
1,选择其中一个userID作为引子,把多个文件沟通起来,建立一个新纬度的数据思考的思路
2,基本的匹配\统计是很有必要的
3,可能一个问题看起来很复杂,要学会把这些问题分布去处理,一步一步得到中间结果,这个是很有必要的.
最近因为论文不得已去接触KDD2012的腾讯微博数据集,一开始是打算自己用小的数据集得到结论,结果是too young too simple.其实一开始就应该硬着头皮去对数据做简单的处理和分析,现在先说一下初步的处理.
1,选择其中一个userID作为引子,把多个文件沟通起来,建立一个新纬度的数据思考的思路
2,基本的匹配\统计是很有必要的
3,可能一个问题看起来很复杂,要学会把这些问题分布去处理,一步一步得到中间结果,这个是很有必要的.