数据产品和数据密不可分作为数据产品经理理解数据从产生、存储到应用的整个流程,以及大数据建设需要采用的技术框架Hadoop是必备的知识清单,以此在搭建数据产品时能够从全局的视角理解从数据到产品化的价值。本篇文章从三个维度:
1.大数据的处理流程
2.大数据的的平台框架Hadoop
3.Hadoop生态圈组件
理解了数据从产生到场景应用每个环节的流程过程以及企业在建立大数据平台时需要采用的技术框架Hadoop以及生态圈中60多个组件的功能作为数据产品经理才算是入门并非是要深层次的理解技术,一方面建立数据全局视角当业务数据出现问题时能够准确诊断到底是哪个环节出现问题,是数据源出现问题,还是数据查询逻辑的问题, 另外一方面数据产品化需要理解背后的运行原理和逻辑。
一大数据的处理过程:
1.数据生产
2.数据采集
3.数据预处理
4.数据储存
5.数据挖掘、统计与分析
6.数据ETL与存储关系系数据库
7.数据可视化
以上是数据流转的整个过程包括了7个环节,从数据的生产到数据储存再到数据可视化应用的全局过程。下图为数据处理全过程:
1数据生产
数据生产过程中主要有三大数据源:日志数据、业务数据库、互联网数据