背景
数字化的今天数据越来越多,有的孤立有的乱,数据治理越来越重要,阅读了这本书,记录下一些随笔:
一本书讲透数据治理:战略、方法、工具与实践
书籍整体内容很全了,就不专门重复书中内容了,只是一些学习的感悟。
为什么学习这本书
以下是我抄的这本书的目录,让大家感受下这本书复杂的体系。(有的icon是我自己的笔记,大家可忽略)
那作为数据人,读这本书能带来什么呢:
- 如果自己负责数据治理
则有宏观的视角,知道全局是怎样的,要有怎样的研发内容,需要做哪些事情。
有时研发只会关注到写代码和架构的部分,但其实数据治理还包含很多内容,遗漏了某些部分就会导致工作进展缓慢。
同时也会知道,有的事情推进缓慢,不一定是研发出了问题,其他资源有问题也会影响推进,也就能更好和上级沟通获取资源。 - 如果公司有完善的数据治理
避免重复造轮子,获取那些标准的数据。
从书中可以知道数据体系有哪些内容,可以获取哪些信息,包括资料培训等,能提升工作效率。
知道数据治理的体系有哪些标准要执行,需要去了解公司标准,不要自己搞乱了公司数据研发体系。 - 如果正在进行数据治理
能主动的去获取对应研发计划,避免未来切换数据源。
也许还能和治理团队合作,优先完善自己负责的工作。 - 如果规划数据治理
了解规划的内容,评估是否能满足自己的需求,与治理团队多沟通避免返工。
了解他们能提供给自己哪些帮助和信息,则可以评估规划方案是否完善,避免数据治理做了半天,自己获得了个寂寞。
很多时候数据治理团队,不会关注到太细的业务细节,很容易就遗漏信息,规划时就可以多沟通。 - 如果没有数据治理,但有规划必要性
本书有阐述数据治理的重要性,能和老板沟通做治理的重要性,争取立项,或者小规模试点。
本书也有详细的数据治理工作内容,能更好的评估工作量,避免过于简单的估计了工作内容。
特别是培训,一把手原则等方面,一般研发是不会考虑到。 - 如果没有数据治理,也不可能有规划
公司不大,数据也没那么复杂,或者成本有限,就不一定会做数据治理。
但可以了解数据治理的思想,平时的数据工作中可以有意识的按照数据治理的方法执行,能事半功倍。 - 通读数据
从数据治理的体系可看到,公司数据体系本来就是公司知识、资产的一部分。
通读公司数据体系,能从数据角度建立对公司全局的认识,未来做项目更能从高处看待问题。
知识点随笔
名词解释
学会学科的黑话,和专业认识统一口径,才算是入了门:
- 名词解释
数据元,元数据,主数据,业务数据,主题数据,数据仓库,数据湖 - 标准规范
数据治理框架:ISO,DGI,DAMA,GB/T 34960,数据管理能力成熟度模型
数据资产
数据是资产,是可以产生数据价值的,而不只是写代码时取数的源头,这样就能感受到对数据的管理本身的价值。
数据治理的核心是盘活数据资产。这样看是否就觉得,数据治理目标就清晰了很多。
DAMA数据治理框架
- 数据治理
- 数据架构
- 数据建模和设计
- 数据存储和操作
- 元数据管理
- 数据质量管理
- 主数据和参考数据管理
- 数据安全管理
- 数据集成和互操作
- 文件和内容管理
- 数据仓库和商业智能
数据治理路线图
类似甘特图,根据标准梳理的工作事项和计划安排,要做规划就可以来参考这个图。
一把手工程
数据治理需要一把手支持,而任务推进不下去时,可以想想一把手在哪,可以给哪些支持
也想想定期要产出汇报给一把手,而不是普通的研发就好。
数据治理体系建设
- 元数据管理为主线:盘点数据资产角度出发
- 主数据管理为主线:建立统一主数据标准和管理平台,再逐渐完善各项数据
- 混合云架构下治理:从公有云应用服务层面,进行数据治理
- 大数据架构下的数据治理:已经有数据了,就是有点乱,那就可以从大数据角度治理
- 微服务架构下的数据治理:公司微服务很多,数据分散各处,则可以参考这个思路。最终是业务数据双中台,基于oneid(IDMAPPING)技术,核心数据标准化
数据运营长效机制
- 运营是常态
数据治理不会所有团队做,也不会天天都在做,其他时候需要关注数据治理保持长效运营的方法。 - 避免犯错
避免自己成为那个破坏数据秩序的坏人。 - 建立研发标准
特别是了解标准规范,培训材料,考核机制,未来有新人进来也好让对方迅速融入。
数据模型
对数据了解需要知道的内容,就可以认为是数据模型。而这些信息就是数据治理需要关注和维护的内容。
数据的关系,最终形态是图模型。
购买关系,依赖关系,属性描述等等。
可以参考ER模型把整个数据体系画下来。一级建模工具UML:
- 定义需求范围
- 定义实体类型
- 定义实体关系
- 定义非键值属性
- 确认模型
元数据管理
元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。
感觉就是很全的数据字典。
元数据应用:
- 数据资产地图
- 数据血缘分析
- 元数据影响分析
- 元数据冷热度分析
- 元数据关联分析
后记
整本书内容比较多,很多细节看了也不一定会记住,但宏观的整理了解流程,当实际用到时可以再回去通读。