学习:
数据处理流程总结
企业数据处理流程:
1.了解产品/运营的需求(需要解决什么问题?定义指标和口径)
2.数据收集(数据准备, 数据调研!!接口调取,数据库,数据仓库(首先检查),消息队列)
3.数据处理(数据清洗 ETL ,缺失值,重复值,异常值确认后剔除,合并多个数据集,数据类型变换)
4.数据分析阶段:指标分析,指标拆解,针对各个影响因素进行比较
5.数据决策和业务优化,数据总结
1)数据采集:定制开发采集程序,或使用开源框架Flume
2)数据预处理:定制开发mapreduce程序运行于hadoop集群
3)数据仓库技术:基于hadoop之上的Hive
4)数据导出:基于hadoop的sqoop数据导入导出工具
5)数据可视化:定制开发web程序或使用kettle等产品
6)整个过程的流程调度:hadoop生态圈中的oozie工具或其他类似开源产品
大数据处理框架: