大数据平台框架、组件以及处理流程详解

数据产品和数据密不可分作为数据产品经理理解数据从产生、存储到应用的整个流程,以及大数据建设需要采用的技术框架Hadoop是必备的知识清单,以此在搭建数据产品时能够从全局的视角理解从数据到产品化的价值。本篇文章从三个维度:

1.大数据的处理流程

2.大数据的的平台框架Hadoop

3.Hadoop生态圈组件

理解了数据从产生到场景应用每个环节的流程过程以及企业在建立大数据平台时需要采用的技术框架Hadoop以及生态圈中60多个组件的功能作为数据产品经理才算是入门并非是要深层次的理解技术,一方面建立数据全局视角当业务数据出现问题时能够准确诊断到底是哪个环节出现问题,是数据源出现问题,还是数据查询逻辑的问题, 另外一方面数据产品化需要理解背后的运行原理和逻辑。

一大数据的处理过程:

1.数据生产

2.数据采集

3.数据预处理

4.数据储存

5.数据挖掘、统计与分析

6.数据ETL与存储关系系数据库

7.数据可视化

以上是数据流转的整个过程包括了7个环节,从数据的生产到数据储存再到数据可视化应用的全局过程。下图为数据处理全过程:

1数据生产

数据生产过程中主要有三大数据源:日志数据、业务数据库、互联网数据

  • 5
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值