大数据体系干货(一) - 数据平台与数据中台

数据平台

  • 数据平台是在数以万计的硬件之上建立统一的基础数据存储和计算的服务,当然我们所建设的数据平台需要周边一些辅助的服务来支撑核心服务的运行,以及一些数据平台管理类工具,辅助日常SRE工作

数据中台

  • 数据中台是抽象了数据能力的共性形成的数据服务能力,是一系列数据服务,用系统化思路解决数据前台对数据获取的难度,更好的赋能业务

数据平台与数据中台的区别与联系

区别

  • 核心区别是-是否跟业务强相关
  • 数据平台和业务的联系并不密切,提供基础的存储,计算,调度,数仓工具等基础的技术服务,至于业务数据怎么存储,数据表如何组织,数据模型如何建,数据如何服务业务,数据平台并不关心
  • 数据中台的目的是通过系统化思路的去组织数据,让数据更好的服务业务,包括数据前台的报表,自助分析,OLAP,维度指标管理,业务中台等

联系

  • 数据平台是数据中台的基石,数据中台要基于需求业务体系,在数据平台之上去建设数据体系
  • 数据中台的建设,也会给数据平台带来更多的技术需求和压力,促进数据平台技术栈更加多样性,性能向更优化方向发展

整体架构

  • 此处的图是包含了这个数据生态的基本体系架构,从低向上的依赖关系
    在这里插入图片描述

硬件层&虚拟化

  • 基础的IT设施,提供基本的运力
  • 万物上云,为云上的服务提供动态缩放的能力,降低整个it设施的成本,提高it设备利用率,当然很多公司的数据平台还有很多直接基于硬件搭建的

数据平台

存储能力
  • 分布式文件系统,不论是基于磁盘还是基于内存,只是不同存储成本的文件系统,带来不同存储性能和特性
  • MQ类的主要支持数据采集和实时计算
  • 数据库主要支持查询类和实时计算,类别很多,关系型,nosql,各有千秋
计算能力
  • 离线计算,提供批处理计算能力,主要负责天,周,月等数据生产,主流的像早期的mr,后期的spark等
  • 实时计算,提供实时数据处理能力,负责实时数据生产,当然实时离线是我们人为划定的时间界限,对于引擎而言,像spark,flink都提供实时和离线的解决方案
  • 算法平台,主要提供机器学习,人工智能,数据挖掘的计算能力,算法框架的选择也是很多,当然在大数据生态还是需要运行在yarn这样资源管理平台,才可以发挥大数据的价值
  • 查询类服务,提供一些和用户交互的查询能力,像一些mpp框架等,多数提供sql查询能力
管理平台
  • 管理平台,是在原生的大数据生态的基础之上,为了更好的管理集群服务,管理集群的资源,提供灵活SRE能力和资源核算审计能力的一系列工具和合称

数据中台

数据仓库
  • 数据中台包括数据仓库的全部内容,数据仓库为数据中台提供了数据对外提供服务的基础资源,数据中台将数据仓库建设的投入价值进行最大化,以加快数据赋能业务的速度
  • 大家都知道数据仓库需要分层建设,需要面向业务主题,但是规范和落地往往是有差异,中台可以帮助数仓建模流程从文档化向标准化迈进,降低由于团队认知差异带来的数仓规范不统一的风险
数据集市
  • 集市层主要面向具体应用做开发,是数仓向数据前台数据的重要连接层,数仓建设的好坏,对数据集市的建设影响很大
  • 数仓和数据集市同样都面临数据重复建设,数据不一致的问题,需要中台协助数仓和数据集市规范化落地
数据开发
  • 数据中台需要改变原来的开发模式,提供全流程的数据开发解决方案,规范开发流程的每一个步骤,达到大一统的效果
  • 维度指标元数据管理
  • 指标树主要维护了指标和指标之间关系,比如某个衍生指标是有哪些基础指标通过什么计算公式计算得到,这个关系很重要,这是做智能异动分析的基础,可以实现很多自动化的异常数据监控和分析能力
  • 指标地图主要维护了指标和数据的物理存储的关联关系,通过地图我们可以轻松到找到哪些维度指标存储到了哪些物理存储里面
  • 建模工具来帮助数仓和数据集市规范的落地,如果没有工具协助,我们制定再好的仓库分层方案,仓库建模方案都是徒劳的,经过长期的累计和人员流动,非常容易导致规范落地不标准,导致数据不一致等一系列问题
  • 开发工具主要协助RD对ETL代码管理,如果还是通过原始命令+sql文件方式来管理ETL,那开发效率会很低,而且对依赖关系和调度的管理也是问题,开发工具会贯穿几乎开发的全流程,来加速开发
数据运维
  • DQC,数据质量监控,提供日常数据质量监控能力,是保证数据一致性的基础,DQC一般提供的基础的质量监控,比如基础的同环比阈值监控,条数监控,空数据监控,均值监控等
  • SLA,数据按时生产的参考标准,etl任务健康度评估的重要指标,保证数据按时交付,确定etl任务的优化目标
  • 异动分析,为业务提供自动化的数据波动分析能力,帮助业务人员定位异常根源,快速调整业务决策
  • 资产管理,数据中台的核心资源就是数据,数据以资产形式管理起来,可以是我们精确的知道我们拥有数据的情况,以方便对数据资源的管理
  • 生命周期管理,数据都有时效性,随着时间推移,需要对数据进行生命周期管理,做合理的清理,属于数据治理的子模块

赋能对象

赋能管理者
  • 赋能管理者,大盘类,大屏类产品,提供综合的,上层的业务视角的数据,来为管理者提供管理决策需要的基础数据
  • 提升一点,可以配合业务经验和AI,来提供辅助决策意见,辅助管理者做决策
赋能业务运营
  • 赋能业务运营,报表类,自助分析类产品,提供了比支持管理者产品更细粒度的数据,可以渗透到业务细节中,为底层运营决策提供精准的数据支持能力
赋能业务中台
  • 赋能业务中台,没有数据的赋能,业务中台也还是偏向于业务公共服务的抽象,只有数据中台的赋能,才能使业务系统是一个智能化的业务系统
  • 比如像"千人千面"的推荐系统
赋能数据变现
  • 赋能数据变现,精准营销的广告系统,为广告带来更高的流水
赋能合作伙伴
  • 赋能合作伙伴,强大的数据服务能力,可以为合作伙伴提供正确的决策方向,达到共赢的状态
  • 8
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值