大数据分析平台的演进之路

1、石器时代

大数据技术刚起步时平台架构很简单,数据流从日志通过RSYNC(linux系统下的数据镜像备份工具)流入到Hive,然后通过Hive SQL语句统计分析,结果导入到MySQL,最后形成报表展示。整个流程的驱动基于Shell脚本完成,报表系统和数据处理是利用Java实现。所有业务需求都是手工处理,所有报表都要写Java代码开发,这个给开发人员造成了很大的工作量,并且用户获取数据周期长,速度慢。

图片.png

2、铁器时代

整合了所有数据、所有计算资源和服务框架,重新构建形成一个大数据平台框架。底层是大数据平台所用的计算资源,离线计算主要是Hive、Spark,流式计算主要是Spark Streaming和Flink;OLAP主要是Impala和Kylin。数据方面Pingback是用户行为日志,机器日志就是程序产生的相关日志。线上数据库主要是MySQL、MongoDB等,大数据存储主要是HDFS、HBase、Kudu,Kudu主要是支持实时,分布式存储主要是HBase、HDFS。再往上层是开发平台层,主要负责工作流开发。流计算通过专门的开发工具进行管理,就是将任务开发进行重新构建。数据开发针对于系统数据进行血缘管理,提供数据集成管理,实现数据在不同集群、引擎间的同步。如机房中有很多机器分成3-4个集群,相互之间要进行数据同步,先前主要是手写程序完成,现在可以通过数据集成来进行跨DC的数据同步。数仓管理主要是埋点投递管理、指标维度管理、数仓模型管理。最上层就是直接面向用户的分析报表平台,自助分析工具有漏斗分析、画像分析、路径分析,还有自助查询工具、BI报表工具等。

图片.png

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值