(预计阅读时间:8分钟)
数据血缘,数据旅行的地图
大数据时代,我们都被数据包围着。企业中的数据作为生产要素,只有进行流转、使用,才能发挥其最大价值。
面对这些来自不同系统、存储为不同形式的数据,我们不禁好奇:这些数据从哪里产生,流经过哪些业务系统?这些系统又对这些数据进行了哪些操作或计算?数据血缘图谱可以回答这些问题。
数据血缘是数据旅行的地图,它显示了数据的起源、沿途的每一站、以及在每一站对数据做了哪些处理和操作。
数据是生产资料,要管理和保护好数据、挖掘数据的价值,最好能怀揣这样一张数据旅行的地图——数据血缘图谱。
数据血缘图谱的典型应用
来源跟踪
这里包括数据来源和报表来源的跟踪。一份数据或是报表的生产,可能涉及到很多的来源和流转路径。掌握这些信息,可以帮助决策者深入理解数据和报表,为科学决策提供依据。
影响分析
数据不断地产生和变化。假如一份数据在源头或上游发生改变,就可以通过数据血缘图谱检查改变后的数据流转过程,并找出下游哪些数据(如消费者)将受到影响。
依赖分析
有些数据源、子系统或中间表、字段是被深入依赖的。数据血缘图谱可以帮助数据管理者调整数据架构,减少数据冗余,优化数据的存储和分析。
数据治理
数据血缘图谱,可以帮助业务领导者在跟踪数据的合规性、管理数据风险的同时,做出更好的决策。
图数据库最适合构建数据血缘图谱
数据血缘映射的是组织中数据实体之间大量的、复杂的依赖关系。假如使用传统关系型数据库中的关系数据模型,由行,列组成的二维表来表示,对于数据血缘问题的处理难免复杂低效。使用图数据库来处理,数据及其关系被抽象为图模型中的“点、边”结构,让关系表达更直观,操作更简单、更快捷。
我们以金融场景为例。如图1所示,这张图被经常引用,它展示的是金融机构在信用卡应用和个人身份分析场景下,数据的来源、流转、最终生成报表和应用的过程。图右侧自上而下的四个节点,分别代表管理者关注的“信用卡历史交易报告”和“数据安全报告”,以及运维系统和工程师日常监测的仪表盘。
(图1,金融机构信用卡应用和个人身份分析架构图)
图片来源: