导读: 大家好,今天主要分享数据分析平台的平台演进以及我们在上面沉淀的一些数据分析方法是如何应用的。
具体分以下四部分:
- Part1:主要介绍下我所在的部门,数据平台部主要是做什么的,大概涉及到哪些业务,在整个数据流程当中数据平台部负责哪些东西;
- Part2:既然我们讲数据分析平台,那么数据分析是什么样的,数据分析领域是什么样的;
- Part3:蚂蚁现在的数据分析平台是怎么来的,是怎么演进到最新版本,在最新版本3.0里面有一些技术详解;
- Part4:既然有了数据分析平台,那么数据分析能帮我们干什么,讲了一个具体在工程上应用的case。
--
01 数据平台部介绍
第一,数据平台部的介绍,首先从整个数据流程开始讲解,数据流程的开始从数据采集与传输,这里面涉及到比如说在线的RDS,OB这些是在线业务数据库;日志,比如是在线应用,机器上打的那些文件日志;还有一些消息,在线应用写的一些消息;还有一些文件,外面的文件。经过数据采集,数据同步,进入到我们的数仓体系里面,这里面数据同步可能有很多,比如DB的日志解析同步DRC、日志文件的解析、采集SRS,然后有一些通用的同步工具DataX。
第二,在数据存储与计算里面,从下往上看上图,第一是比较多的、传统的批量计算,就像ODPS,Spark,还有最新的一些框架,比如Ray,Ray在蚂蚁变种就是Raya。第二块就是实时流计算,业界有比如storm,JStorm,蚂蚁有Kepler,Spark Streaming这些东西。第三在这之上是垂直的,有一些机器学习的场景,有PAI,有TersonFlow这样的东西在里面。第四,在这个体系里用户接触最多的是一站式数据研发平台和一站式AI研发平台,分别是面向数仓、AI两个体系去做的。
最后,在存储与计算完成以后就要面向应用场景,面向最后的消费者,这中间的应用,比如说有报表展示,数据分析(今天我们着重讲数据分析这一块),还有一些挖掘预测,就是做算法,做模型,还有一些数据决策,就是把数据作为在线决策,这就是整个数据流。
数据平台部在这里面着重的是偏后面,就是数据存储与计算以及数据应用与消费这两个东西。下面着重介绍两个环节,数据平台部有哪些业务。
这张图可是一个业务架构,就是数据平台部涉及到哪些业务,总共我们分为3层,我们把我们数据平台部在做的一个东西叫做数据操作系统,我们有两块,一个是数据操作系统内核,一个是用户接触到的软件。还有是外面有哪些场景。
1. 数据操作系统的内核
- 基础框架
基础框架里面有什么东西,为什么有他,比如说多环境适配,因为我们整套数据平台的解决方案是对外输出的,有公有云环境,有专有云环境,这些环境底下的基础设施都不一样,比如说包括租户和账户体系,权限体系,流程体系,审批流这类东西,所以正是通过基础框架搭我们底层的环境。最主要目的其实是提供一些我们上层数据应用的通用能力以及把底层的数据环境的差异给屏蔽掉。
- 核心能力
① 数据安全:数据安全就会涉及到数据资产的分类、分级。不同类别的资产,他的安全等级是不一样的,他在安全里面需要有权限的话,他的审批策略是不一样的,这是数据安全这一块,可能还涉及一些比如脱敏,我们消费端接触到这些数据怎么脱敏;
② 隐私保护:隐私保护更偏重,比如说隐私保护还有一个叫法是数据安全、数据合规,我们想要做什么事情,就是我们要去透明化的看到各个公司数据流通,比如有哪些数据,这些数据的安全等级是什么样的,涉及到用户哪些数据;
③ 数据质量:主要是在我们数据研发过程当中,数据周期从发布到线上调度,调度完了怎么去做数据质量的监测,检测完了以后,比如说我们做离线调度的时候最重要的一个就是数据产出时效,所以有一个基线。这都是怎么去保障我们任务的基线;
④ 元数据中心:元数据中心大家都知道,因为我们下面有各种各样不同的引擎,有Spark,有ODPS,有MySQL这些东西,怎么去把它当中的数据统一的元数据中心;
⑤ 数据治理:数据治理的逻辑就是配合数据质量把我们现有的数据给盘清楚。
- 数据引擎
① 任务执行与调度引擎:我们在做ETL的时候大多数都是这种任务执行与调度;
② 数据科学引擎:数据科学引擎主要是做分析,做业务洞察这一类,今天的数据业务平台可能更多的就是依赖于数据科学引擎,后面会详细介绍;
③ 决策服务引擎:决策引擎比如说给大家举一个场景,芝麻分大家都知道,那首先假如我有一个业务在线上,在线上做策略的时候,或者给大家看不同的页面的时候,不同的芝麻分的等级看到的页面或者等级是不一样的,这种东西是需要数据决策的,或者直白的来说,是需要这个人的芝麻分,这个通过统计数据服务会去配一个决