第10章 参考数据和主数据
一、引言
1.1 业务驱动因素
启动主数据管理最常见的驱动因素包括:
- 满足组织数据需求:组织中多个业务领域需要访问相同的数据集,并且他们都相信这些数据集是完整的、最新的、一致的。主数据通常是这些数据集的基础。
- 管理数据质量:数据的不一致、质量问题和差异均会导致决策错误或丧失机会。主数据管理通过使用统一的标识来定义对组织至关重要的实体,以降低风险。
- 管理数据集成的成本:在没有主数据的情况下,将新数据源集成到一个已经很复杂的环境中成本会更高,这减少了因对关键实体的定义和识别方式的变化而产生的额外成本。
- 降低风险:主数据简化了数据共享架构,从而降低了与复杂环境相关的成本和风险。
参考数据管理的驱动因素:
- 通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本。
- 提升参考数据的质量
1.2 目标和原则
(1)目标
- 确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据
- 促使企业在各业务单元和各应用系统之间共享参考数据和主数据
- 通过采用标准的、通用的数据模型和整合模型,降低数据使用和数据整合的成本及复杂性
(2)原则
- 共享数据:为了能在组织中实现参考数据和主数据共享,必须把这些数据管理起来
- 所有权:参考数据和主数据的所有权术语整个组织,而不是数据某个应用系统或部门,
- 质量:参考数据和主数据需要持续的数据质量监控和治理
- 管理职责:在给定时间点,主数据值应该代表组织对准确和最新内容的最佳解释;对参考数据更改应遵循一个明确的流程(在实施变更之前应该进行沟通并得到批准)
- 权限:主数据值应仅从记录系统中复制
1.3 基本概念
1.3.1 参考数据
参考数据是指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据。最基本的参考数据由代码和描述组成,但是有些参考数据可能更复杂,还包含映射和层次结构。参考数据管理的目标是确保不同功能之间引用的值是一致的、最新的,并且组织内部均可访问这些数据。
(1)参考数据结构
- 列表:最简单的参考数据是由代码值和代码秒数据组成的列表
- 交叉参考数据列表:不同的应用程序可以使用不同的代码集表示相同的概念
- 分类法:分类参考数据体系根据不同级别的差异性获取信息
- 本体:本体模型也可理解为是元数据的一种形式,值必须是完整的、最新的且有明确定义的。
(2)专有或内部参考数据
许多组织通过创建参考数据来支持内部流程和应用,参考数据管理的一部分工作就是通过管理这些数据集,理想情况下,使各个数据集之间具有一致性,并让这种一致性服务于组织。
(3)行业参考数据
行业参考数据是一个宽泛的术语,用于描述由行业协会或政府机构而不是由某个组织创建和维护的数据集,以便为编码重要的概念提供一个通用的标准。
(4)地理或地理统计参考数据
地理或地理统计参考数据可根据地理信息进行分类或分析。
(5)计算参考数据
计算参考数据与其他类型数据的主要区别在于其变化的频率。为了确保数据的完整性和准确性,许多组织从第三方购买这种数据。
(6)标准参考数据集的元数据
参考数据也会随着时间的变化而变化,维护参考数据集的关键元数据是非常重要的,这样做可以确保他们的血缘和流转过程得到理解和维护。
1.3.2 主数据
主数据是有关业务实体的数据,这些实体为业务交易和分析提供了语境信息。业务规则通常规定了主数据格式和允许的取值范围。一般组织的主数据包括下列事物的数据:
- 参与方:个人和组织,以及他们扮演的角色,如客户、公民、病人、厂商、供应商、代理商、商业伙伴、竞争者、雇员或学生等。
- 产品和服务:包括内部和外部的产品及服务
- 财务体系:如合同、总账、成本中心、利润中心
- 位置信息:如地址、GPS坐标
(1)记录系统,参考系统
记录系统是一个权威的系统,它通过使用一套定义好的规则和预期来创建、获取并维护数据。参考系统也是一个权威系统,数据消费者可从参考系统中获得可靠的数据来支持交易和分析,即使这些信息并非起源于参考系统。
(2)可信来源,黄金记录
基于自动规则和数据内容的手动管理的结合,可信来源被认为是“事实的最佳版本”。可信来源也可被称为一种单一视图u、360度视图。在可信来源中,表示一个实体、实例的最准确数据的几率可被称为黄金记录
(3)主数据管理
主数据管理只有做到对主数据值和标识符的控制,才能保证在系统间实现对核心业务实体最准确、最及时的数据的一致使用。目标包括确保准确的、最新的值得可用性,同时降低不明确标识符的风险。主数据是由标识符和扩展属性组成的一个一致且统一的集合,它描述了企业的核心实体。评估一个组织需要主数据管理情况,需识别以下几点:
- 哪些角色、组织、地点和事物被反复引用
- 哪些数据被用来描述人、组织、地点和事物
- 数据是如何被定义和设计的,以及数据粒度细化程度如何
- 数据在哪里被创建或来源于哪里,在哪里被存储、提供和访问
- 数据通过组织内的系统是如何变化的
- 谁使用这些数据,为了什么目的
- 用什么标准来衡量数据及其来源的质量和可靠性
在一个域内主数据管理包括以下几个基本步骤:
- 识别能提供主数据实体全面视图的候选数据源
- 为精确匹配和合并实体、实例制定规则
- 建立识别和恢复未恰当匹配或合并的数据方法
- 建立将可信数据分发到整个企业的系统中的方法
主数据管理全生命周期中的关键活动包括:
- 建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理
- 识别出在单个数据源内及多个数据源中代表同一实体的多个实例;构建并维护标识符和交叉引用,以支持信息整合
- 协调和整合不同来源的数据,以提供主记录或事实的最佳版本。合并记录提供了跨系统的信息合并视图,并试图解决属性命名和数据值不一致的问题
- 识别出那些未被正确匹配或合并的实例,确保它们得到修正,并关联到正确的标识符
- 通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析性数据存储系统,实现对可信数据的跨程序访问。
- 在组织内强制使用主数据,这个过程还需数据治理和变更管理的支持,以确保共享的企业视角。
(4)主数据管理的关键处理步骤
- 数据模型管理:这些模型应该能够帮助组织克服“系统发言”的状况。
- 数据采集
a.接收并应对新的数据源采集的要求
b.使用数据清理和数据分析工具进行快速、即时、匹配和高级的数据质量评估
c.评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析
d .试点数据采集及其对匹配规则的影响
e.为新数据源确定数据质量指标
f.确定由谁负责监控和维护新数据源数据的质量
g.完成与整体数据管理环境的集成
- 数据验证标准化和丰富:要实现实体的解析,数据必须尽可能保持一致,准备过程如下:
a.验证:识别那些被证明是错误或可能是不正确或默认的数据
b.标准化:确保数据内容符合标准参考数据值、标准的格式或字段
c.数据丰富:添加可以改进实体解析服务的属性
- 实体解析和标识符管理:实体解析是确定两个队现实世界对象的引用到底是同一对象还是不同对象的过程
(5)参与方主数据
参与方主数据是关于个人、组织以及他们在业务关系中所扮演角色的数据。客户关系管理(CRM)系统能够管理客户的主数据。客户关系管理的一个重要方面是从不同的系统中识别重复、多余、互相矛盾的数据,并确定它们是代表一个客户还是多个客户
(6)财务主数据
财务主数据包括有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据。财务主数据管理解决方案不仅包括创建、维护和共享信息,哈克模拟现有财务数据的变化如何影响公司的基线。
(7)法律主数据
法律主数据包括关于合同、法规和其他法律事务的数据。法律主数据允许对提供相同产品或服务的不同实体的合同进行分析,以便更好地协商谈判,或将这些何工合并到主协议中。
(8)产品主数据
产品主数据专注于组织的内部产品和服务,或全行业的产品和服务。不同类型的产品主要解决方案支持不同的业务功能
- 产品生命周期管理(PLM)系统侧重于从构想、开发、制造、销售、交付、产品额废弃等方面管理产品或服务的生命周期
- 产品数据管理(PDM)系统通过获取和实现对设计文档、配方、标准操作程序和物料清单等产品信息的安全共享,以支持工程和制造功能
- 企业资源规划(ERP)系统的产品数据主要关注库存单位,以支持从订单录入到库存阶段,可以通过多种技术识别各种独立的产品
- 制造执行系统(MES)中的产品数据主要关注原材料库存、半成品和成品,其中成品与可以通过ERP系统来存储和订购的产品相关联
- 客户关系管理(CRM)系统支持营销、销售和交互支持,系统中的产品数据可以包括产品系列和品牌、销售代表协会、客户区域管理以及营销活动等。
(9)位置主数据
位置主数据提供跟踪和共享地理信息的能力,并根据地理信息创建层次关系或地图。
- 位置参考数据通常包括行政区域数据,如国家、州或省、县、市或镇、邮政编码,以及地理位置坐标
- 位置主数据包括业务方地址和位置,以及组织拥有的设备的地址和位置。
(10)行业主数据——参考目录
参考目录是主数据实体的权威清单,组织科购买和使用主数据实体作为交易的基础,参考目录可通过以下方式帮助用户更好地使用主数据:
- 为新纪录的匹配和连接提供起始点
- 提供在记录创建时可能较难获得的其他数据元素
- 党组织的记录与参考目录匹配、协调时,可信记录将偏离参考目录,并可追溯到其他源纪录,贡献属性和转换规则。
1.3.4 数据共享架构
实现主数据中心环境的三种基本方法各有利弊:
- 注册表:注册表是指向多种记录系统中主数据记录的索引。记录系统管理应用程序本地的主数据,可根据主索引访问主数据
- 交易中心:该方法中,各应用程序与中心系统交互,实现对主数据的访问和更新,主数据存在于交易中心内,而不存在于任何其他的应用程序中。
- 混合模式:是注册表和交易中心的混合体,记录系统管理应用程序本地的主数据。
二、活动
2.1 主数据管理活动
2.1.1 识别驱动因素和需求
每个组织都由不同的主数据管理驱动因素和障碍,受系统的数量和类型、使用年限、支持的业务流程以及交易和分析中数据使用方式的影响。驱动因素通常包括改善客户服务/或运营效率,以及减少与隐私和法律法规有关的风险。障碍包括系统之间在数据含义和结构上的差异。
2.1.2 评估和评价数据源
评估数据源的目标之一是根据组成主数据的属性来了解数据的完整性;另一个目标是了解数据的质量。最大的挑战是数据源之间的差异。在任何给定的数据源中,数据可能都是高质量的,但由于结构差异以及表示相似属性的值得差异,这些数据还是补鞥呢很好的整合在一起。而主数据计划提供了在这些应用程序中定义和实现标准的机会。
2.1.3 定义架构方法
主数据管理的架构方法取决于业务战略、现有数据源平台以及数据本身,特别是数据的血缘和波动性以及高延迟或低延迟的影响。在抉择整合方法时,需要考虑整合到主数据解决方案中的源系统的数量和这些系统所需的平台。数据共享中心成为数据仓库货数据集市中主数据的数据源,降低了数据提取的复杂性,并减少了数据转换、修复及融合的处理时间。
2.1.4 建模主数据
主数据管理是一个数据整合的过程。为了实现一致的结果,并在组织扩展时管理新资源的整合,必须在主题域内为数据建模。
2.1.5 定义管理职责和维护过程
主数据管理项目应考虑主数据保持质量所需的资源,需要对记录进行分析,像源系统提供反馈,并提供可被用来调整和改进驱动主数据值和标识符作为流程的输入。
2.1.6 建立治理制度,推动数据使用
整个工作必须要有一个路线图,以便让各个系统可以把主数据值和标识符作为流程的输入。在系统之间建立单项的闭环,以保持系统之间值得一致性。
2.2 参考数据管理活动
2.2.1 定义驱动因素和需求
参考数据管理的主要驱动因素是运行效果和更高的数据质量。比起多个业务单元各自维护自己的数据集,集中管理参考数据更具有成本效益,并减少了系统之间不一致的风险。
2.2.2 评估数据源
大部分组织依赖内部人员创建和维护参考数据。必须对组织内部的参考数据的数据源进行标识、比较和评估。现有数据的所有者必须了解集中管理的好处,并支持有利于企业的数据管理行为。
2.2.3 定义架构方法
在考虑架构方法时需要认识到,有些参考数据总是需要手动更新,以确保更新的入口简单直接,并且可以满足基本的数据准入规则,如确保在包含层次结构的参考数据中维护父子关系。参考数据管理工具应是数据管理员能够随时进行更新且无须技术支持,同时还应包括工作流以确保批准和通知的自动化。
2.2.4 建模参考数据
为了实现对元数据
2.2.5 定义管理职责和维护流程
参考数据需要确定管理职责,以确保数据值的完整性和时效性,定义清晰、易于理解。
2.2.6 建立参考数据治理制度
要是适当的政策来管理质量,并强制使用来自该存储库的引用数据,无论是直接通过该存储库发布,还是间接使用来自中央存储库的数据同步的参考系统。
三、工具和方法
主数据管理可以通过数据整合工具、数据修复工具、操作性数据存储(ODS)、数据共享中心(DSH)或专门的主数据管理应用来实现。
四、实施指南
4.1 遵循主数据架构
建立和遵循适当的参考体系架构,对于管理和共享跨组织的主数据至关重要。整合方法应考虑企业组织架构、记录系统的数量、数据治理实施、数据访问延迟的重要性以及消费系统和应用程序的数量。
4.2 检测数据流动
设计主数据和参考数据的数据整合过程,确保在组织内做到及时地提取和分发数据。当数据在参考数据或主数据共享环境中流动时,应监测相关数据流,以便实现以下目的:
- 显示数据如何在整个组织中共享和使用
- 在管理系统和应用程序中识别数据的血缘关系
- 辅助进行问题根本原因的分析
- 展示数据整合和消费整合技术的有效性
- 通过数据消费展示源系统的数据值延迟
- 确定在集成组件中执行的业务规则和转换的有效性
4.3 管理参考数据变更
由于参考数据属于共享数据,所以不应任意更改。参考数据的变更需要被管理,小的变更可能会影响几行数据;参考数据的重大修订还会影响数据结构。数据修改的类型包括:
- 对外部参考数据集的行级变更
- 外部参考数据集的结构变化
- 对内部参考数据集的行级变更
- 内部参考数据集的结构变化
- 创建新的参考数据集
参考数据变更请求应遵循既定流程,应通知各利益相关方,以便评估影响。如果更改需要审批,则应进行讨论以通过审批。变更后,需要通知各利益相关方。
4.4 数据共享协议
为了确保恰当的访问和使用,应建立共享协议,规定哪些数据可以共享,以及在任何条件下可以共享。应建立SLA和直播啊,以衡量共享数据的可用性和分享数据的质量;处理流程应当到位,以便从根本上解决数据质量或可用性问题;应制定一种标准的沟通方法,使所有受影响的相关方了解问题的存在和补救工作的状况。
4.5 组织和文化变革
参考数据和主数据管理要求人们放弃对某些数据和进程的控制,以便创建共享资源,而做到这一点并不容易。或许最具挑战的文化变革才是治理的中心:确定哪些决定由个人负责;哪些决策需要由数据管理团队、项目指导委员会和数据治理委员会协同做出。
五、参考数据和主数据治理
5.1 治理过程决定事项
治理过程应决定如下事项:
- 要整合的数据源
- 要落实的数据质量规则
- 遵守使用规则的条件
- 要监控的行为和监控频率
- 优先级和数据工作响应等级
- 如何展示信息以满足利益相关方的需求
- 参考数据管理和主数据管理部署的标准授权扎口和预期
5.2 度量指标
- 数据质量和遵从性:数据质量仪表板可描述参考数据和主数据的质量。这些指标应说明主题语实体或相关属性的置信度,以及它在整个组织中符合实际需求的使用价值。
- 数据变更活动:审核可信数据的血缘对于提高数据共享环境中的数据质量是必要的
- 数据获取和消费:数据由上游系统供应,由下游系统和流程使用。这些指标应显示和追踪哪些系统在贡献数据,哪些业务区域在共享环境中订阅数据
- 服务水平协议(SLA):应建立SLA并传达给贡献者和订阅者,以确保整个数据共享环境的使用和采用。
- 数据管理专员覆盖率:这些指标应该关注对数据内容负责的个人或团队,并展示覆盖率的评估频率。
- 拥有总成本
- 数据共享量和使用情况:需要跟踪纳入主数据的数据量和使用情况,以确定数据共享环境的有效性。这些指标应该展示数据共享环境中流入和流出数据的定义、纳入和订阅的数量和速率。