1. 5个V
(1) Volume 高容量
(2)Velocity 高速度
(3)Variety 多样性
(4)Veracity 真实性
(5)Value 价值性
2. 工作
(1)存储
(2)管理
(3)分析 (这里主要讲这个)
3.大数据分析
通过对大量数据进行分析,挖掘发现其中的模式和模型。
(1)Valid:对新数据有效
(2)Useful:能在一定程度上方便对item进行决策
(3)Unexpected:模式/模型不易被观察到
(4)Understandable:人们能够对模式进行解释
4.数据分析任务
(1)描述方法
找到人类可解释的模式来描述数据,如:聚类
(2)预测方法
使用一些已知变量来预测未知的变量,如:推荐系统