“大数据元年”,今年媒体上一直宣称,我们公司的销售也是一直把这句话挂在嘴边。
我个人觉得,是相关处理工具发展到一定阶段的产物,同时也是市场的需要。
今年的大数据项目比较多,客户总是要往云上靠,要是没有靠上,就会觉得自己Out了。
总之,数据的金矿随着时间的推移,从特殊到一般发展,从高端到低端发展,从大企业到小企业发展。
扯了这么多,要说什么呢?
首先,大数据从那里来?
1.日志,如Apache logs
2.应用生成的数据文件,如摄像头采集下来的数据
1)各种采集器
3.社交类网站的交互数据
1)可以作为舆情的数据来源
4.运营商产生
1)访问日志 => 话费详单数据、上网详单数据
2)用户画像
5.微博数据
1)可以作为舆情的数据来源
2)构造关系图谱
3)用户画像
第二,我们的创业公司想在大数据元年有所开拓,有什么原则可以把握呢?
1.搞定数据源
2.创建通用工具集,解决处理大数据的一小部分问题
第三,实际操作方法
数据源我们可以现成的weibo数据,生成关系图谱、用户画像、舆情参考
采用Hadoop作为处理大数据的工具。