数据中台驱动理念

第二页PPT

讲数据中台之前我们来看看到底是出现了什么问题,
导致他们提出了数据中台这么个概念

在数据中台之前,大家更多提的是数据平台

数据平台也就是大家可用在这个台子上做数据的加工、处理、利用
已经有这么个台子了也说明数据利用已经被大家接受了

在数据利用过程中大家发现问题,

数据除了创造价值也慢慢成为了一种负担

巨量的数据耗费巨量的存储

加工这些数据也花费巨量的算力

数据开发要在这巨量的数据表中找到有用的表也需要花费大量时间

在使用这些表时候还需要花很大代价了解背后加工的原理

确认数据逻辑是符合自己需要的数据才能使用

ETL工程师发现发现自己有一半时间是在被询问表的加工逻辑

被运维人员抱怨数据耗费的资源多,但是又不能下架

一个指标因使用人和使用场景不同需要重复开发

同一指标因为开发团队理解不同导致口径不同,被业务抱怨

开发资源不停的扩容,可总是抢不到资源,无法按时产出数据被业务不停diss

站在业务角度看

开发搞的数据,总是不准

口径和老板BI的取数口径总是对不上,每次都被质疑被挨骂

数据取出来了,活动已经到尾声了,影响活动效果

开发一个数据表,需要一周时间还搞不好

有时候需要零时看数据,找一张数据需要各种的问还找不到

技术给的数据表,加工逻辑很是费解,明明一个简单问题他写的逻辑负责的感觉在证明相对论

数据总是不全,一个活动多个渠道的数据,不是没打点数据就是取出来数据大部分是空

取数工程师就是宝贝啊,不是高优先级别人物,找个取数人都找不到

CFO预算严重超支,你们讲数据创造了价值

是不是可以给我个数据量化下,到底数据创造了多少价值
ROI大概在什么范围,有没办法降低下成本

数据成为成本后,我们该怎么办

简单开源节流

从哪下手节流:存储资源、计算资源、人力资源

从哪开始开源:让数据成为资本和原材料,而不是成为存储计算的负担

第三页PPT:

通过上一页问题的了解,数据已经成为了生产的成本中心

更进一步看问题主要就在于重复建设、没有统一规划,无序利用数据导致数据成为成本

所以数据的使用也是需要有序有组织精细化开发生产的

数据在开发使用时候没有考虑到其它业务域复用性问题

数据在开发时候没有考虑清楚,每个指标对应的业务抽象和核心

只求快速的开发出来,快速用起来

开发当中每个人一套的表命名方式、每个人一套的字段命名方式

每个业务都有自己的指标定义,取数口径

每个团队为了利用数据,各自搞了一套数据开发平台

各自搞了一套自己的数据ETL框架

结果就是一份源数据多处被复用

一个指标体系多种开发版本

一个指标被重复的计算

需要深入去问每个开发表的人表开发逻辑,自己熟悉的表就那么几张

各种的表很多,但是用时候却发现找不到可用的表

数据存储量很大资源消耗很多,其实很多都是重复被存储加工的表(或中间结果)

计算资源浪费很多,其实很多事没必要的重复计算

很多计算任务一起起来,导致很多任务被拖住,重要数据任务没法及时的跑完

那如何解决这些问题

从全局视角梳理业务板块、抽象业务域、业务流程——数据重构

业务数据化过程中需要考虑“高内聚低耦合”让数据容易扩展——数据建模

各业务域共性的数据往下沉,统一指标定义、统一指标规范——指标统一

做好数据质量监控,保证产出数据的质量——数据质量

做好计算任务的资源消耗计算,建立HBO评价体系,动态调整计算资源,优化坏sql——资源管理体系

建立数据查找门户,梳理好指标体系、梳理好血缘关系方便业务查找数据——数据服务

统一开发工具,让数据生产、发布、运维在同一工具,让问题发现和解决一站式
让理念成为产品沉淀在开发工具,历史经验、高手经验产品化沉淀开发工具上成为规则

这样就能保证公共数据只生产一次,提高优先级保证公共数据的产出时效

保证关键和基础指标的上下一致性

更上层的团队独有的数据可用在公共层之上做开发

第四页PPT:

兵法里面讲:“最好的防守就是进攻”,

在数据领域也是一样,最好的降低成本办法就是把成本变成盈利的资本

也就是我们该如何把数据变成资产,让数据成为业务生产必不可少的要素

那我们要怎么去构建和搭建这个数据资产系统呢

资产首先就是要容易被业务用对吧

指标是对业务的度量系统,往往不是那么方便业务去做运营

所以我们需要一套业务方便使用的标签

为什么标签业务会方便使用呢,标签其实就是分类,

就是帮助业务在不同的视角去看事物,看清楚了当然就容易下对策做营销

所以这个标签体系应该是围绕着业务运营的各种实体(人、物、关系、场)来打,越丰富越好
那要丰富必然需要多份数据多个视角的数据,这就存在数据ID关联问题——ONEENTITY

为了解决这个问题,就提出来ONEENTITY的方法论

围绕ONEENTYITY打通各域数据又产出了GProfile这么个方法论,来生产和加工各种实体标签

有了指标体系、有了标签体系那运营去哪找这些东西呢
我们还需要一个方便数据资产查找的门户,方便数据的查找

数据资产门户(总看)、数据地图、数据目录、数据血缘这些模块就产生了

有了数据数据资产门户,我们方便查找数据了

那我们如何评价资产价值呢

我们得知道数据被调用了多少次、被谁、被哪个业务用了,产生了什么价值

所以我们需要数据血缘可用追溯末端谁用了哪张表

需要资产评估报告可用知道数据资产产生了多少价值带来多少利润

我们需要AB测试系统,可用评估出每次数据被调用是产生了正向还是负向价值
可用让业务更大胆创新

我们还需要元数据的管理平台,采集到每份数据生产到使用过程中
计算资源、存储资源、查找资源、利益价值数据

方便运维对每份数据做参数优化评估(比如一张表调用次数很多,各部门都有,但这张表是部门表,是否可以把这张表下沉,提高运行优先级变成公共表;一张表周期很长,但是使用人数很少,是否可以把生命周期变短,减少存储压力)

数据资产、数据资产查找、价值评估都有了
资产是有生命周期的,也是有生来病死的
所以我们是不是也需要对数据资产做监控,做全生命周期的管理
有问题可以快速定位问题、结局问题
需要下线了可以快速的发现下线

有新需求了可以快速的生产

这对应的就是资产的生命周期管理模块

让运营直接去找数据表其实还是不太方便的
对于运营来讲其实他只关心最后的结果,是否可以一键式的提供服务

越傻瓜越好,毕竟他的关注点不在数据做的多好

而在于最后他的业绩KPI是不是如期完成

所以我们还需要对数据做各种的服务包装

以数据服务的方式提供给业务

业务只要提供业务逻辑,直接可以给他们提供数据服务

至于后面是如何翻译转译加工数据他们不需要关注

这对应的就是数据服务(OneService)模块

第五页PPT:

前面讲了数据中台的基本思维出发点是什么
也讲了它诞生背后的是什么样的因为什么样的问题,以及解决这些问题的理念

有了理念那如何把这些理念变成具体的产品、方法落地呢

大家可以对照的左边的架构图看看

现在看是不是已经很明白,为什么数据中台是长这样了

其实都是在解决一个一个对应问题后演化出来的

我们的课程安排会涉及到数据中台每个大模块

业务数据化部分:
会讲到数据从何来、数据的采集和数据的汇总

数据的资产化部分:

会讲到数仓建设部分,包括常用的数据模型
维表建模方法、数据库分层规划、指标体系化

会讲到标签体系化建设模块

数据标签类目如何建设,标签规范如何设计,标签常用工具和模版
标签质量考虑哪些部分,如何保证

资产服务化部分:

会介绍4种常见的服务模式

以及如何针对业务的逻辑建模做解析产生数据自动化建模

数据资产管理部分:

会介绍数据门户如何建设,数据地图、数据血缘的生产逻辑

会讲解基于元数据的数据资产管理方案

资产的价值评估、成本评估

讲解数据的质量管控

介绍数据安全管理常用方法

数据生产工厂:

这部分会介绍数据的开发IDE包括哪些部分

如何做代码的智能提示、sql的智能检查

会介绍数据任务如何监控运维、如何做任务调度

常见的运维发布任务和基于调度DAG图定位解决运维问题

第六页PPT:

智能数据和数据智能

数据的生产和管理已经逐步的自动化智能化

全生命周期的数据治理、数据中台理念逐步产品化
基于元数据的自动化构建数据表、自动化的数据建模、智能问题排查、智能数据任务调度

DataOps已经开始逐步智能化

这些都离不开AI技术

各种业务运营的智能化

智能营销系统、智能搜索系统、智能洞察系统、智能决策

数据已经越来越有想象力,源于已知预测未知

这些也都离不开AI技术

不管你愿意还是不愿意AI技术已经逐步的进入数据生产、生产数据的方方面面
所以课程这部分会安排基础的AI技术课程

AI产品的建模:

这部分会介绍CRISP-DM 模型流程,让大家熟悉AI产品的开发流程和关键步骤

数据算法篇:

这部分会介绍AI常用的几大类数据模型,让大家知道一般什么样问题可以用哪些类的算法模型

模型评估篇:

这部分会和大家介绍模型的常用两大类评估模型

在实际开发中有可能不是每个工种都会去做模型开发和调优
但是无论是运营还是产品都很关心如何对算法评估,评估这模型是好是坏

这部分会介绍离线评估模型

还会抽一节课跟大家介绍AB测试系统

会讲到AB测试系统的理论依据:假设性检验

AB测试中很重要的随机样本如何构建

AB测试结果该如何归因分析也会讲到部分

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值