《数据中台》笔记整理

@[TOC]数据中台笔记

读数据中台笔记整理


第三章 数据中台建设

数据中台建设方法论
1种战略行动:
从整个公司层面来做战略规划,可以从某个部门开始进行,但是需要有公司领导层的支撑
2项保障条件:
确定数据中台的团队及职责,提升组织数据意识
数据意识包括:
1.数据采集意识
2.数据标准化意识
3.数据使用意识
4.数据安全意识
3项目标准则:
1.可见
2.可用
3.可运行
4套建设内容
1.技术体系
技术体系是基础支撑,就像骨架一样撑起整个数据中台
2.数据体系
数据中台就像是数据中台的血肉,数据中台对外呈现的主要内容就是数据体系
3.服务体系
服务体系就是数据中台的价值所在,就像数据中台的灵魂一样。激活静止的骨架,血肉,让数据中台动起来,发挥价值
4.运营体系
运营体系就是数据中台的守护者,通过运营体系保证整个中台的健康,持续运转
5个关键步骤
1.里现状
将目前在用的系统的现在,包括数据库,数据流量,数据字段、更新周期等
2.立架构
业务架构、技术架构、应用架构、组织架构
3.建资产
通过数据资产系统建设方法,帮助企业构件既符合场景需求又满足数据架构要求的数据资产体系并实施落地
这个步骤涉及数据汇总、数仓建设、标签体系建设以及应用数据建设,其中最关键的是标签体系建设(维度建模)
4.用数据
从应用场景出发,将已经构建的数据资产通过服务化方式,应用到具体的业务中,发挥数据价值。
5.做运营
数据应用于业务后,其产生的价值通过运营的能力不断优化迭代,并让更多的人感知的数据的价值点。
数据中台架构
1.数据汇聚
数据汇聚是数据中台数据接入的入口,将不同设备、渠道中产生的数据汇聚到数据中台中
2.数据开发
通过工具对汇聚的数据进行数据建模,在线分析、离线分析、人工智能等工具和算法,对汇聚的数据进行开发以适应与实际的应用场景。
3.数据体系
数据按照贴源数据、统一数仓、标签数据、应用数据的标准统一建设。
4.数据资产
数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等运行管理和展示,以一种更直观的方式展现企业的数据资产。提示企业的数据意识。
5.数据服务体系
数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在
6.运营体系和安全管理
保证数据中台的健康、安全的运转基础。

总结:数据中台建设需要从整个企业的高层的战略规划做起,由高层领导对整个企业建立起数据中台建设的数据意识,确定数据中台建设的总体目标
可以小步快跑的对进行数据中台的建设,技术上主要以大数据生态圈相关技术为基础,对数据进行数据汇聚,建模,形成数据资产为企业提供更
有价值的服务。

第四章 数据中台建设的评估和选择

企业数据应用的成熟度评估
数据应用能力成熟度越高,则代表数据对业务的支撑能力越强;应用能力成熟度越低,则意味着业务对数据的依赖程度越低
第一阶段:统计分析阶段
该阶段主要是以业务需求为导向,通过IT系统的建设,实现业务过程的流程化、自动化、这个过程中可能会有少量数据记录,
但并没有以数据为导向积累数据,主要是通过单一维度的少量数据的统计分析进行业务总结。主要有5个特征
1.企业战略方面:纯粹以业务为驱动,主要满足企业业务需求,实现业务过程的流程化、自动化为导向。
2.数据形态方面:以数据库进行存储,数据无组织,各业务数据分散管理,维度单一,没有对业务数据背后的价值进行挖掘,对数据质量要求不高
3.数据场景方面:维度单一,每次都需要定制化开发
4.数据应用工具方面:应用单一,主要以数据报表,导出excel为主
5.组织架构方面:无正规的数据部门,主要以IT部门为主,需要数据时有特定部门提供
第二阶段:决策支撑阶段
该阶段企业不在满足于业务需求,需要对企业的决策提供一定的支撑
1.战略方面:开始具备对业务数据的思考,通过可视化的方式利用业务数据对企业的经营决策提供支持
2.数据态度方面:对数据质量有了更高的要求,并进行统一管理,使得数据维度不在单一,形成面向业务主体的主题数据
3.数据应用场景:应用场景增加,包括领导驾驶仓、企业运行指数。
4.数据应用工具方面:应入了数据仓库,数据开发工具以及可视化工具对数据进行分析和管理
5.组织架构方面:成立了专门的数据管理团队,对数据进行分析、挖掘以提供数据化决策
第三阶段:数据驱动阶段
该阶段主要是企业在大数据背景下,开始基于海量数据积累,利用大数据、机器学习和深度学习技术。进行数据的深度挖掘和分析,通过多源。异构的全域数据的汇聚
打通跨界考虑数据价值的应用,通过数据驱动业务发展,为专业应用提供数据服务,实现业务与数据的深度融合。
1.企业战略方面:企业开始将数据作为企业的重要资产和生产资料,通过数据深度挖掘为业务应用提供服务,通过数据驱动业务发展
2.数据形态方面:对结果化数据和非结构化数据进行应用处理,开始更具需求进行数据清洗和加工和标准化处理。
3.数据应用场景:主要以满足业务需求为主,主要是用数据提升现有业务能力,进行智能化升级。
4.数据应用工具方面:开始通过以hadoop/spark生态体系为代表的在线或离线计算,并进行深度学习为现有业务场景赋能,以驱动业务提升。
5.组织架构方面:成立了专门的数据团队,应用人工智能算法进行业务创新。
第四阶段:运营优化阶段
该阶段通过对算法等进行优化,让数据对企业越来越有价值,形成良性循环,该阶段各个方面都有了提升,形成数据影响业务,业务驱动数据的良性循环。
实现这一目标需满足5个条件
1.能够追溯数据资产的形成过程,包括涵盖了那些数据来源,经过了怎样的加工环节,涉及那些业务环节和部门等
2.能及时获取到数据资产当前的状态,尤其是数据质量和安全情况
3.能知道数据资产被那些业务调用了,以通过建立数据闭环了解和追溯数据资产所带来的业务价值
4.能对整个数据中台从数据采集到数据应用的整个链路建立监控体系,便于及时发现和排除故障,保障数据资产的稳定性
5.建立丰富的数据内外部共享和服务渠道,实现数据价值的释放和交换

第七章 数据体系建设

数据体系规划
数据中台体系应用的特点
1.覆盖全域数据
2.结构层次清晰:纵向的数据分层,横向主题域、业务过程划分,让整个层次结构清晰易理解
3.数据准确一致:定义一致性指标,统一命名、统一业务含义,统一计算口径,并有专业团队负责建模,保证
数据的准确一致
4.性能提示:统一的规划设计,选用合理的数据模型,清晰地定义并统一规范,并且考虑使用场景,使整体性能更好。
5.降低成本:数据体系的建设使得数据共享,避免了重复建设,节约了计算,存储和人力成本
6.方便易用:
相关概念:
业务板块:
根据业务的属性划分出的相对独立的业务板块,业务板块是一种大的划分,各业务板块中的业务重叠极低,数据独立建设。
模型设计:
以建模理论为基础,基于维度建模总线架构,构建一致性的维度和事实,同时设计出一套表命名规范。
数据域:
是对企业业务过程进行抽象,提炼、组合的集合,面向业务分析,一个数据域对应一个宏观分析领域
业务过程:
业务过程是一种企业的业务活动事件,且是企业经营过程中不可拆分的行为事件
修饰词:
修饰词指除统计维度以外的指标进行限定抽象的业务场景词语,修饰词隶属于一个修饰词类
原子指标:
原子指标是针对某一业务事件进行的度量,是一种不可拆分的指标,具有明确业务含义。
派生指标:
就是通过一些统计计算而得到的一些指标
计算方法:
一些数学计算方法,如最大,最小,平均值等
维度表:
观察事务的角度,是对数据进行过滤和分类的描述性属性。如:时间、地点等
事实表:
观察事物得到的事实数据,事实涉及来自业务过程事件的度量,事实表又分为明细事实表和汇总事实表
明细事实表记录事物层面的事实,保存的是原子数据,
汇总事实表记录的是对原子数据进行了聚拢形成的事实表;聚拢是以某种规律进行的聚拢,如时间间隔,周期等,不对事实数据做任何统计或计算。
粒度:
粒度是指统一数仓层数据的细化或综合程度,对各种事实表进行实际代表的内容给出明确的说明
,用于确定某一事实表中的行表示什么。
一致性指标定义:
指标归属到具体数据域,定义指标的含义,命名、类型、计算方法、确保指标的全局一致性。
数据域划分:
第一阶段:数据调研
业务调研:确定项目要涵盖的业务领域和业务线,以及各个业务线可以系分成那个业务模块,各业务
模块具体的业务流程是怎样的,通过跟业务专家的访谈或进行资料文档收集,梳理主要业务流程,业务
边界、专业术语等。
数据调研:调研全部数据目录信息,梳理数据流与业务过程关联关系。
第二阶段:业务分类
业务过程提取
业务过程拆分
业务过程分类
第三阶段:数据域定义
业务分了确认:对业务分类结果再次确认,避免分类范围中出现业务特征明显与其他业务过程无关的
情况
数据域定义:根据业务分类规律总结出划分业务范围的标准定义
数据域命名:为每个数据的起一个专属名称
第四阶段:总线矩阵构建
关系梳理:明确每个数据域下有哪些业务过程,并梳理出业务过程与哪些维度相关
矩阵构建:定义一张二维矩阵,将数据域下的业务过程与维度信息如实记录下来。
维度表设计
1.选择维度:维度作为维度建模的核心,在企业及数据仓库中必须保证维度的唯一性。
2.确定主维度:主维度表一般直接从业务统计同步而来,是分析事实所需环境描述的最基础,最频繁的维
度属性集合
3.梳理关联维度:
4.定义维度属性:
事实表设计:
1.确定业务过程:
2.定义粒度
3.确定维度
4.确定事实
5冗余维度属性
标签设计
相关概念:
对象:是客观世界中研究目标的抽象,可以是现实对象、虚拟对象是具备独立特征的个体
对象标识:对象的标识符用以标识一个对象,一般是各种ID,比如手机号、身份证、登录账号
标签:利用原始数据,通过一定的加工逻辑产出,能够为业务所直接使用的可阅读。易理解、有业务价值
标签类目:是标签的分类组织方式,是标签信息的一种结构化描述,目的是管理、查找标签、一般采用多级
目录
属性标签:
统计标签:
算法标签
标签融合表:以对象未核心把属性标签、统计标签、算法标签组装起来得到的表,是标签数据层落地的产物

第八章 数据资产管理

数据资产的特征
1.企业拥有或控制
2.能带来未来经济利益
3.数据资源
数据资产管理现状和调整
1.缺乏统一的数据视图:由于数据分布在不同渠道,数据管理人员无法从宏观上掌控和使用
2.数据基础薄弱:数据标准混乱、质量无法保证、行业间数据孤岛严重。没有进行萃取,无法很好的利用数据
3.数据应用不足:由于数据基础薄弱,数据应用的场景只是对数据进行了浅的应用,没有对数据进行深度挖掘
4.数据价值难估:企业难以评估数据对业务的共享有多少
5.缺乏安全的数据环境:数据安全制度不完善、缺乏相应的数据安全管理控制措施
6.数据管理浮于表面:没有建立一套数据驱动的组织管理制度和流程,没有建设先进的数据管理平台工具,导致
数据管理工作很难落地
数据资产管理的4个目标:
1.可见:通过对数据资产的全面盘点,形成数据资产地图
2.可懂:通过元数据管理,完善对数据资产的描述
3.可用:通过统一数据标准,提升数据质量和数据安全性等措施
4.可运营:数据资产运营的最终目的是让数据价值越滚越大,因此数据资产运营要围绕资产价值来展开
数据治理的目标
1.提升数据质量,帮助做出基于数据的更高效、更准确的决策
2.构建统一的,可执行的数据标准
3.良好的相应数据生产者、消费者、数据处理技术人员等数据利益相关者的需求,如保护好客户的数据隐私和
数据安全
4.培训组织内所有的管理层和员工,让大家采用共同的解决数据问题的办法
5.实现可重复的数据管理流程,并确保流程透明
6.实现数据的可持续运营、数据资产的增值
数据治理原则
1.标准化原则:统一的数据标准化,让数据的价值得到最大的体现
2.透明原则:除了一些需要保密的安全措施之外,所有的数据治理的流程都是透明的,相关人员可以知道数据
发生了什么,除了问题可以按照规则进行处理
3.数据的认责与问责:数据治理必须解决无人问责的问题
4.平衡原则:在海量数据中要在代价和收益中取得平衡
5.变更原则:要控住数据的变更流程,也要主动去适应数据的变化
6.持续改进原则:数据治理也需要持续的改进,以满足业务变化的需求
数据治理的理论体系
数据管理的成熟度
1.初始级:数据管理主要在项目级体现,没有统一的管理流程,主要是被动式管理
2.受管理级:指定了管理流程,有专人进行数据管理
3.稳健级:数据已被当做了数据资产,指定了一系列的标准化管理流程,促进数据管理的规范化
4.量化管理级:数据被认定为是获取竞争优势的重要资源,数据管理的效率可以量化分析和监控
5.优化及:数据被认为是组织生产和发展的基础,先关管理流程能实时优化,能在行业内进行最佳实践分享
数据治理的发展趋势
1.从质量管理到质量与服务并重
2.人工智能大幅提升数据治理效率
3.以元数据为核心的分布式数据治理
元数据管理
元数据:元数据是描述数据的数据,元数据是数据的户口薄。源数据管理是数据治理的核心和基础,同样元
数据也存在描述元数据的数据,元数据户口簿
元数据从何而来
1.技术元数据:数据库表。字段、模型、ETL等
2.业务元数据:业务指标、业务代码、业务术语
3.管理元数据:数据所有者、数据质量定责、数据安全等级
元数据的管理
1.元数据的增删改查
2.元数据的变更管理
3.元数据对比分析
4.元数据统计分析
元数据的应用
1.元数据的浏览和检索
2.数据的血缘和影响性分析
3.数据冷热度分析
主数据管理
主数据时指用来描述企业核心业务实体的数据,是企业核心业务对象
管理的内容包括
1.主数据相关标准及规范设计
2.主数据建模
3.主数据梳理与集成
4.主数据质量管理
5.建立灵活的主数据共享服务
6.建立主数据维护流程
数据治理管理
1.数据质量管理目标
2.数据质量问题产生的根源
3.数据质量评估标准:准确性、完整性、一致性、有效性、唯一性、及时性、稳定性、连续性、合理性
4数据质量管理流程:注重问题的分析、解决、跟踪、持续优化、知识积累形成数据质量持续提升的闭环

第9章 数据服务体系

数据服务体系主要分类
1.基础数据服务
2.标签画像服务
3.算法模型服务
核心价值
1.确保数据在业务层的全域流通
2.降低数据接口的重复建设
3.保障数据获取的及时性和稳定高效
4.数据能力持续扩张
常见的数据服务
1.查询服务
特征
(1).支持配置标识
(2).支持配置过滤项
(3).支持查询结果配置
构建过程
(1).数据接入
(2).数据查询
(3).结果规则配置
(4).能力开放
2.分析服务
特征
(1).支持多源数据服务
(2).高性能即席查询
(3).多维度数据分析
(4).灵活对接业务系统
构建过程
(1)数据接入
(2)在线建模
(3)功能开放
3.推荐服务
特征
(1).支持不同行业的推荐
(2).支持不同场景的推荐
(3).支持推荐效果优化
构建过程
(1).选择行业和场景模板
(2). 原始数据接入
(3).参数配置
(4).能力开放
(5).数据回流
4.圈人服务
特征
(1).支持人群圈选
(2).支持人群计算
(3).支持多渠道对接
构建过程
(1).数据接入
(2).人群圈选
(3).功能开放

第10章 数据中台运营

数据中台运营的使命和目标
1.数据安全及质量是中台可持续运营的基础
2.提效降本是大值中台影响力的关键
数据中台运营的价值切入点
1.统一战略;企业从上到下都明确数据化转型对于企业生死存亡的决定性作用
2.搭建组织
3.打造气氛
4.实践创新
数据资产运营目标
1.可阅读
1).经过多次变化后业务人员能清楚知道是什么
2).业务人员提出需求后场时间得不到回应
3).技术资源匮乏
2.易理解
3.好使用
4.有价值
数据资产运营执行的动作
1.组织登记
*掌握现有数据
*收集业务需求
*信息登记上架
2.宣传推广
3.服务保障
4.治理优化
5价值评估
数据资产安全管理
1.分级分类管理
*按资产与核心业务的关联程度
*按资产敏感程度
*按资产更新周期划分
2.脱敏和加密
3.监控和审计
资产监控包括对资产的存储、质量、安全使用等进行监控
*表记录数的波动监控:对指定表分区的行数和历史数据进行比较得出波动值,判断是否超出了设定范围
*字段的统计值波动监控:对指定字段的历史比对,看波动与用户的期望值
*数据量监控
*数据资产各类质量指标监控
*数据资产分级分类监控
*数据资产脱敏监控

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值