(1)应用领域:商业、制造业、媒体、趋势预测、决策支持
(2)采集、ETL、实时数据采集
(3)数据集成:合并整理,形成统一的数据视图
数据清洗:对数据进行整理
数据变换:简单函数;数据规范化;连续值离散化
数据规约:最大限度地精简数据量
(4)数据存储-Redis,Kafka,OSS
(5)大数据处理技术:实时、离线、批量、流式
(6)分析方法:描述型分析,诊断型分析,预测型分析,指令型分析
(7)常用算法:分类,回归,关联规则,聚类,KNN,K-Means
(8)工具:Weka,SPSS,Python,R
(9)数据可视化:比较,占比,相关,趋势,地理图