DAMA数据管理知识体系指南之参考数据和主数据管理

最新推荐文章于 2024-06-19 23:07:32 发布

Listen·Rain

最新推荐文章于 2024-06-19 23:07:32 发布

阅读量1.3k

点赞数

分类专栏： DAMA数据管理知识体系指南书籍阅读文章标签：数据库大数据

本文链接：https://blog.csdn.net/qq_46517733/article/details/128884514

版权

DAMA数据管理知识体系指南书籍阅读专栏收录该内容

11 篇文章 3 订阅

订阅专栏

第8章参开数据和主数据管理

8.1 简介

参考数据和主数据管理是对参考数据和主数据进行持续的协调一致和维护工作。

①参考数据管理是对定义的数据域值(也称为词汇/术语)进行控制，包括对标准化术语、代码值和其他唯一标识符以及每个取值的业务定义的控制，和对数据域值列表内部和跨不同列表之间的业务关系的控制；并且对准确、及时和相关参考数据值的一致、共享使用进行控制，以进行数据分类和目录整编。
②主数据管理是对主数据值进行控制，以实现跨系统的一致、共享、上下文相关地使用主数据，以及对核心业务实体的真实情况的最准确、及时和相关的版本进行控制。

参开数据和主数据管理职能关联图:
在这里插入图片描述

8.2 概念和活动

8.2.1参考数据

参考数据是用于将其他数据进行分类或目录整编的数据。业务规则通常规定参考数据值是几个允许值之一。允许值的数据集是一个值域。有些组织根据内部业务定义参考数据的值域，如参考数据-订单状态：新建立、处理中、完结、取消等。其他参考数据的值域可由像政府或行业标准等外部资源来定义，如美国的标准邮政编码中各州的两个字母缩写，例如，CA代表加利福尼亚州等。

8.2.2 主数据

主数据是对事实的“黄金”记录，提供了关于业务实体最权威、最准确的数据。
常见的主数据包括：

当事人主数据：个人、组织、客户、合作伙伴、竞争对手等，基于不同当事人主体在不同的行业和领域会有其当事人主数据的独特性，比如教育行业，关注的是学生和教师。针对不同当事人主体可能会有不同的专业系统进行管理，比如CRM（客户关系管理）、HRM（人力资源管理）等；
财务主数据：业务单元、成本中心、利润中心、总账账户、预算、计划和项目数据等。通常使用ERP（企业资源规划）充当财务主数据的管理中心。财务主数据关注的是财务数据的改变如何影响例如预算、计划等企业管理工作，不同版本的财务结构对组织的影响；
产品主数据：一个组织的内部产品或服务，或整个行业的（包括竞争对手）的产品和服务。可以是结构化的或非结构化的，它可能包括产品或服务的基本信息，也可能包含其装配组件清单、零件/原材料、版本、修订、价格、折扣条款、配套产品、设计文件、图像、配方、标准操作规程等内容。产品生命周期管理PLM是对产品从概念阶段开始，到其交付的过程管理。不同行业对PLM的管理诉求不同；
位置主数据：提供跟踪和分享不同地理信息的能力。在这类数据中，参考数据和主数据的概念并不清晰。（书中提到的是位置参考数据是指国家、省市区等标准代码，位置主数据则是针对某个当事人的地址和位置、地理定位坐标等信息）

8.2.3 理解参考数据和主数据整合需求

发现和理解单一应用程序的参考数据和主数据的需求比较容易。而对跨应用，特别是跨整个企业的需求把握则难得多。分析数据质量问题的根本原因通常会发现参考数据和主数据整合的需求。成功地管理参考数据和主数据的组织每次都重点关注一个主题区域，分析在所有物理数据库和不同应用模式中一些业务实体出现的所有匹配情况。

8.2.4 识别参考数据和主数据的来源及贡献者

成功的组织首先理解参考数据和主数据的需求，然后跟踪这些数据的血缘关系，以确定数据的起始及中间的源数据库、文件、应用、组织，甚至创造和维护这些数据的角色岗位。要做到在了解上游数据源的情况下理解下游的数据需求，以期在数据的源头捕获高质量的数据。

8.2.5 定义和维护数据整合架构

参考数据和主数据整合的基本方案有三种：

1）集中统一管理：代码管理系统（也就是我们平时所说的主数据管理系统）可以是多种参考数据集提供记录的系统，数据库是记录数据库。如下图：

在这里插入图片描述

记录数据库作为参考数据的“中心”向其他“分支”应用和数据库提供参考数据。应用系统可以直接读取参考数据和主数据，也可以通过订阅、复制、发布的方式获取数据记录。

记录数据库的数据来源除了通过代码管理系统生产外，也可能来自于外部数据源，比如书中举例的保险公司索赔系统。通过索赔系统和自己系统的数据整合，可以更加完整的反映保单的当前状态。

2）分主题域管理：每个主数据域都有自己专用的记录系统。比如人力资源记录雇员数据，CRM记录客户数据，ERP记录财务和产品数据。每个系统的数据库都作为某类主数据的权威数据中心。如下图：
在这里插入图片描述

各个记录系统管理某个主题的权威数据，只有通过参考记录或主记录，才可以复制给到其他应用或数据仓库、数据集市等使用。

3）运转中心：拥有多个权威数据中心的数据整合环境非常复杂。运转中心的设计是为了解决管理不同权威主题域数据的整合难题。
在这里插入图片描述

运转中心的设计是让每个记录数据库把其权威的参考数据和主数据提供给操作性数据存储（ODS）系统，再有ODS做为参考数据和主数据的中心向其他应用提供数据。同样可以通过读取（甚至是直接做为自己的数据库）、订阅、复制、发布等方式获取数据。

ODS不仅仅做为记录传递数据，自身也具备数据管理职能，可以核对来自于一个系统的新增数据和更新是否与其他系统的数据存在冲突。数据仓库可以保存ODS的数据变更历史，ODS成为数据标准管理的核心，降低了数据抽取的复杂度，减少数据转换、清洗和核对的处理时间。

数据整合架构的通用数据整合服务示意图：
在这里插入图片描述

数据整合服务可以有效的协调参考数据和主数据不一致的问题，通过建立主数据标准，使得参考数据和主数据可以有效的标准化和共享。因此在数据整合服务中，应包括：

变更请求处理：包括评审和批准；
对外部获取的参考数据和主数据进行数据质量检查；
数据质量规则和匹配规则要保持一致性；
数据处理的模式、有关映射/转换/程序和工作的元数据、审计/错误解决方案和性能监控数据、复制数据的方式（订阅、发布、读取等）均采用一致的模式；

8.2.6 实施参考数据和主数据解决方案

由于需求的多样性、复杂性和不稳定性，实施参考数据和主数据的解决方案必然需要一个过程。组织应当在架构、业务优先级和实施计划路径的指导下，采取迭代和增量方式来实施解决方案。

使用代码管理系统，可以在业务数据管理专员的统一控制下，维护一套具有权威性的参考数据和主数据。但是在实际应用过程中，很少能确保所有参考数据和主数据都能纳入到完整的数据管理范围内。不论什么情况（原因）下，都会存在缺乏管理的参考数据和主数据。

参考数据和主数据的解决方案实际上是要结合组织特性、业务需求的数据管理方法论。可以通过数据整合架构、解决方案，以及二者两结合的方式来建立有效的参考数据和主数据管理策略。

8.2.7 定义和维护数据匹配规则

匹配的目的是消除冗余，提高数据质量。数据匹配是将多个系统中对于同一个人、群组和事物的数据通过比对、合并、连接等关联起来，提供更丰富全面的数据信息。这也是主数据管理面临的最大难题和挑战。

在主数据日常管理和维护中，数据匹配是通过基于应用推理规则建立的数据匹配引擎来实现的，这依赖于清晰的匹配规则，包括不同置信水平的匹配接受度（有些匹配需要极高的信任度，有些则可采用较低的信任度）等。

匹配决策不可能完全正确，因此保持匹配历史信息非常重要，以便在发现匹配不正确的情况下撤销匹配。通过对匹配率等指标的分析来监控匹配规则的效果和影响，同时做为优化匹配规则的依据。

针对不同的业务场景，可以使用不同的流程建立匹配规则：

①重复识别匹配原则，重点关注一组特定的用于确定实体和识别合并机会的字段，但不自动合并，由业务数据管理专员评审后执行；
②匹配合并规则：重点关注记录的匹配并将这些记录的数据合并为一个唯一和全面的记录。至少有一个数据库的数据是可信记录，以它为基准关联其他数据库，并通过其他数据库对记录进行补充，用以替代缺失或者不准确的数值；
③匹配链接规则：确定主数据的相关记录，建立交叉引用关联，而不更新被交叉引用的数据记录。这个规则容易实现，且更易于恢复数据原貌。

匹配合并规则非常复杂，有两个问题需要注意：

①整合数据的操作复杂性；
②数据错误操作的还原成本。

主数据的置信水平随时间发生变化，要定期重新评估匹配和并和匹配链接的规则。可以通过数据匹配引擎提供的数据值统计相关性来帮助建立新的置信水平。

8.2.8 建立“黄金”记录

黄金数据是被认为最准确、最新，提供给跨应用使用的相关数据值，具备标准化和一致性。确定黄金数据的方法：通过分析确定数据的质量，应用数据质量规则和匹配规则，以及在获取、建立和更新数据的应用系统中嵌入数据质量控制过程。

（1）执行数据质量规则：

①针对使用的数据和业务规则进行编辑检查；
②创建、录入新数据时，通过数据标准进行搜索检查。可以为用户推荐已经存在的相关联数据，如果没有，则创建新数据；
③检查数据的准确度是否达到要求，不满足应予以提示。同时，提供例外情况记录的通道，以备审计和优化数据质量使用；

（2）建立数据质量衡量方法：

①设置数据质量预期（标准）；
②评估数据质量的改善，分析确定出现数据质量问题的根本原因；
③通过数据分析活动以及业务规则符合程度，验证评估的数据质量结论；

（3）数据清洗活动：

①提供术语和缩写标准化功能，将不同的词语和缩写转换为标准词汇或缩写；
②需要注意的是，不同的词汇使用同一个缩写的问题，这样很难将缩写逆向转换为术语词汇；
③在数据整合活动中，嵌入数据质量规则可以使得任何数据源的数据均使用同一组校验和标准化的规则；

（4）消除冗余数据

应用匹配规则将已经规范化和清洗后数据中的重复数据进行处理；

8.2.9 定义和维护层次及关联关系

词汇及相关的参考数据集往往比首选术语及其同义词表更多。它们可能还包括术语间的层次关系。这些关系可以是“普遍到特殊的分类”（“是一种”关系）或“全部和部分组合”（“是……的一部分”的关系），也可能是一些值得去识别的其他非层次关系。

关联管理是主数据记录之间关系的维护和建立。包括所有权关联关系(如公司X是Y公司的附属公司，父子关系)或其他关联（如某人XYZ在X公司工作）。商务智能环境的层次管理有时也被称为维度层次管理。

8.2.10 计划和实施新数据源的整合

整合新参考数据源包括但不限于：

①从不同群组接收和回应新数据采集请求。
②使用数据清洗和数据剖析工具执行数据质量评估服务。
③评估数据整合的复杂性和成本。
④试点数据采集和匹配规则的影响。
⑤确定数据质量负责人。
⑥确定数据质量指标。

8.2.11 复制和分发参考数据与主数据

参考数据和主数据既可以直接从记录数据库中读取，也可以从记录数据库复制到其他进行事务处理的应用数据库，以及用于商务智能的数据仓库中。通过复制数据，应用程序可以更轻松地确保参照完整性。换句话说，该数据库可以确保只有有效的参考数据代码和主数据标识符才被用作其他表的外键值，提供相关数据的上下文背景。数据整合过程必须确保及时将参考数据和主数据复制和分发到这些应用的数据库中。

参考数据通常在应用程序中作为值列表出现，也经常在内容管理引擎中作为搜索标准出现。对在非结构化的文档中出现的参考数据经常通过建立索引来加快搜索。

8.2.12 管理参考数据和主数据的变更

在受控的主数据环境中，需要由特定的人员担任业务数据管理专员的角色，承担建立、更新、作废参考数据的工作，并在某些情况下完成主数据的类似操作。以确保数据的高质量。

参考数据集变化比较缓慢。可以遵守下列基本的变更请求流程来规范地控制受控词汇及其参考数据集的变化：

①创建和接收变更请求。
②确定相关利益相关方并了解其利益。
③识别和评价建议变更可能造成的影响。
④决定接受或拒绝变更，或者向管理层或治理层给出决策建议。
⑤如果需要，评审和批准（或拒绝）建议。
⑥变更前与利益相关方就决策进行沟通。
⑦实施变更，更新数据。
⑧通知利益相关者变更已经实施。

主数据管理和变更，需要改变数据的管理（控制）方。这需要建立参考数据和主数据的变更需求的接收和响应渠道。包括：

①新的数据源请求——要求向受管理的数据环境引入新信息。
②数据内容调查请求——用于用户对数据质量产生分歧时。为了响应这些要求，业务数据管理专员和数据专家需要对这些数据追根溯源，随后及时采取改正措施和加以澄清。
③业务定义和数据结构变更时产生的数据规范变更请求。这种变更可能在应用和商务智能环境中产生连锁影响。数据架构师、应用程序架构师和业务数据管理专员必须评审这些请求，数据治理委员会可能需要确定对相应请求的处理。