DAMA数据管理知识体系指南-读书笔记8

最新推荐文章于 2024-05-08 21:37:51 发布

baidu_38792549

最新推荐文章于 2024-05-08 21:37:51 发布

阅读量677

点赞数

分类专栏：数据治理文章标签：大数据

本文链接：https://blog.csdn.net/baidu_38792549/article/details/120745806

版权

数据治理专栏收录该内容

33 篇文章 58 订阅

订阅专栏

第八章数据集成和互操作

一、引言

数据集成是将数据整合成物理的或虚拟的一致格式；数据互操作是多个系统之间进行通信的能力。

1.1 业务驱动因素

对数据移动进行有效管理：管理数据在组织内部的存储库与其他组织之间的双向流动过程。
维护管理成本：标准工具的应用可降低维护和人力成本，并提高故障排除工作的效率。

1. 2 目标和原则

（1）目标

及时以数据消费者所需的格式提供数据
将数据物理地或虚拟地合并到数据中心
通过开发共享模型和接口来降低管理解决方案的成本和复杂度
识别有意义的湿巾，自动触发警报并采取相应行动
支持商务智能、数据分析、主数据管理以及运营效率的提升

（2）原则

采用企业视角确保未来的可扩展性设计，通过迭代和增量交付实现
平衡本地数据需求与企业数据需求，包括支撑与维护
确保数据集成和互操作设计和多动的可靠性。

1.3 基本概念

1.3.1 抽取、转换、加载

数据集成和互操作的核心是抽取、转换和加载的过程（ETL）

（1）抽取

抽取过程包括选择所需的数据并从其源数据中提取，然后，被抽取的数据会在磁盘或内存中的物理数据存储库中进行存储。

（2）转换

转换过程是让选定的数据域目标数据库的结构相兼容。转换包括多种情况，包括当数据向目标移动时将它从源数据中移除、数据复制到多个目标中、数据用于出发事件但不会持久化等。转换的例子包括：

格式变化：技术上的格式转换
结构变化：数据结构变化，如从非规范化到规范化记录
语义转换：数据值转换时保持语义的一致化表达
消除重复：如规则需要唯一的键值或记录，以确保包括扫描目标、检测和删除重复行的方法
重新排序：改变数据元素或记录的顺序以适应已定义的模式

（3）加载

加载过程是在目标系统中物理存储或呈现转换结果。

（4）抽取、转换、加载（ELT）

如果目标系统比源系统或中间应用系统具有更强的转换能力，那么数据处理顺序可切换为ELT（抽取、加载、转换）。ELT允许在数据加载到目标系统后再进行转换。

（5）映射

映射定义了要抽取的源数据与抽取数据的识别规则、要加载的目标与要更新的目标行的识别规则以及要应用的任何转换或计算规则。

1.3.2 时延

时延是指从源系统生成数据到目标系统可用该数据的时间差

（1）批处理

以批处理模式移动的数据代表在给定时间点的全部数据。批处理对于在短时间内处理大量数据非常有用，它倾向于数据仓库数据集成解决方案。为了实现快速处理和低延迟，一些数据集成解决方案使用微批处理（批处理运行频率高于按天更新频率，eg：每5分钟运行一次）。

批量数据集成可用于数据转换、迁移和归档以及从数据仓库和数据集市中抽取和加载数据。为了避免数据集不完整，对数据转移到数据仓库的作业应按照每日、每周或每月的报表来进行调度。

（2）变更数据捕获

变更数据捕获是一种通过增加过滤来减少传送宽带需求的方法，只包含在特定时间范围内更改过的数据。变更数据捕获监视数据集的更改（插入、更改、删除），然后将这些更改（增量）传送给使用这些数据的其他数据集、应用程序和组织。变更数据捕获可是基于数据的，也可基于日志。

有三种基于数据的变更数据捕获技术：

源系统填入特定的数据元素
源系统进程在更改数据时被添加到一个简单的对象和标识符列表，然后用于控制抽取数据的选择
源系统复制已经变化的数据，这些数据作为交易的一部分变成独立对象，然后抽取处理。

在基于日志的更改数据捕获中，数据库管理系统创建的数据活动日志被复制和处理，然后寻找将其转换并应用到目标数据库的特定更改。

（3）准实时和事件驱动

数据在特定的数据表内饰以较小的集合进行处理，或者在事件发生时处理。准实时处理具有更低的延迟，而且通常因为工作是随时间分布的，所以系统负载较低。准实时数据集成解决方案通常是企业服务总线（EBS）来实现。

（4）异步

异步数据集不会阻塞源应用程序继续执行，也不会在任何目标应用程序不可用时导致源应用程序不可用。异步配置中对应用程序进行的数据更新不是及时的，所以称为准实时集成。

（5）实时，同步

采用这种类型的架构存在于一个连续体中，可通过数据库能力保持数据集同步，两阶段提交要确保事务中的所有内容更新，要么都成功，要么都没有成功。在状态管理里面，实时的、同步的解决方案比异步解决方案的需求少。

（6）低延迟或流处理

如需非常快速地进行远距离移动数据，那么为低延时解决方案付出的额外成本是合理的。低延迟数据集成解决方案旨在减少事件的响应时间，可能包括使用像固态硬盘的硬件解决方案或使用内存数据库的软件解决方案，这样就不会因为读写传统磁盘而造成延迟。异步解决方案通常用于低延迟解决方案，这样事务在处理下一个数据之前不需要等待后续进程的确认。

1.3.3 复制

复制技术将分析和查询对主事务操作环境性能的影响降至最低。标准复制解决方案是准实时的，数据集的一个副本和另一个副本之间的更改有很小的延迟。如果数据更改动作发生在多个副本站点时，那么数据复制解决方案不是最佳的选择。

1.3.4 归档

使用归档存储来自正在推移的应用程序的数据以及来自长期未使用的生产系统的数据，可提高操作效率。

1.3.5 企业消息格式/规范格式

规范化的数据模型是组织或数据交换团队使用的通用模型，用于标准化数据共享的格式。在使用中心辐射型数据交互模型来实现企业数据集成解决方案时，创建和管理所有数据交互的公共规范数据格式是一项开销巨大的工作。

1.3.6 交互模型

（1）点到点

共享数据系统之间的绝大多数交互都是“点对点”，他们直接相互传递数据。这个模型在以小组系统的上线文行得通。但当许多系统需要来自同一来源的相同数据时，它会很快变得效率低下并增加组织风险：

影响处理：如源系统是操作型，那提供数据的工作量可能会影响交易处理
管理接口：点对点交互模式所需的接口数量接近系统数量的平方数。
潜在不一致：使用多个接口获取数据会导致发送给下游系统的数据不一致。

（2）中心辐射型

中心辐射模型是点对点的替代方案，它将共享数据整合到应用程序可使用的一个中央数据中心。数据中心提供一致的数据视图，对源系统性能的影响有限。数据中心甚至最小化了必须访问的数据源系统和抽取的数量，从而减少对源系统资源的影响。EBS是用于在多个系统之间接近实时共享数据的数据集成解决方案，其数据中心是一个虚拟概念，代表组织中数据共享的额标准和规范格式。

（3）发布与订阅

发布和订阅模型涉及推送（发布）数据的系统和其他接收（订阅）数据的系统。当多个数据消费者需要特定格式的数据集时，集中开发该数据集并使用其对所有需要的人都可用，可确保所有参与者及时收到一致的数据集。

1.3.7 数据集成和互操作架构概念

（1）应用耦合

耦合描述了两个系统交织的程度。两个紧密耦合的系统通常有一个同步接口，其中一个系统等待另一个系统的相应。松耦合是一种优化的接口设计，其中在系统之间传送数据不需要等待相应，而且一个系统不可用时，不会导致另一个系统无法使用。可以使用服务、API或消息队列等各种技术来实现松耦合。

（2）编排和流程控制

编排用来描述在一个系统中如何组织和执行多个流程
流程控制是确保数据的调度、交付、抽取和装载的准确和完整的组件。

（3）企业应用集成

企业应用集成模型（EAI），软件模块之间通过定义良好的接口调用进行交互。企业应用集成是基于面向对象的概念，它强调重用和替换任何模块而不影响任何其他模块的能力。

（4）企业服务总线（ESB）

ESB是一个系统，它充当系统之间的中介，在他们之间传送消息。应用程序可通过ESB现有功能封装发送和接收的消息或文件。作为一个松散耦合的例子，ESB充当两个应用程序之间的服务角色。

（5）面向服务的架构

通过在应用程序之间定义良好的服务调用，可提供推送数据或更新数据功能。SOA关键概念是体统了独立的服务：该服务没有调用应用程序的预先知识，服务的实现是调用应用程序的黑匣子。SOA可通过Web服务、消息传送、Restful API等多种技术来实现。

数据服务可包括数据的添加、删除、更新和检索，这些服务被指定在可用服务的目录中。为了实现企业的扩展性和重用性目标，必须围绕服务和API的设计及注册建立一个强大的治理模型。

（6）复杂事件处理

复杂事件处理将多个来源的数据进行合并，通过识别出有意义的事件，为这些事件设置规则来指导事件处理及路由，进而预测行为或活动，并根据预测的结果自动触发实时响应。

（7）数据联邦和虚拟化

数据联邦提供访问各个独立数据存储库组合的权限。
数据虚拟化使分布式数据库以及多个异构数据存储能够作为单个数据库来访问和查看。

（8）数据即服务

软件即服务（Saas）是一种交付和许可模式，许可应用程序提供，但软件和数据位于软件供应商控制的数据中心，而不是获得许可组织的数据中心。
数据即服务（Daas）的一个定义是从供应商获得许可并按需由供应商提供数据，而不是存储和维护在被许可组织数据中心的数据。

（9）云化集成（IPaas）

云华集成作为云服务交付的一种系统集成形式，用它处理数据、流程、面向服务架构和应用集成。

1.3.8 数据交换标准

数据交换标准是数据元素结构的正式规则，交换模式定义了任何系统或组织交换数据所需的数据转换结构。数据需要映射到交换规范中。

二、活动

2.1 规划和分析

2.1.1 定义数据集成和生命周期需求

定义数据集成需求涉及理解组织的业务目标，以及为实现这些目标而需要的数据和建议的技术方案。定义需求的过程可以创建并发现有价值的元数据，组织的元数据越完整和准确，其管理数据集成风险和成本的能力就越强。

2.1.2 执行数据探索

数据探索应该在设计之前进行。探索的目标是为数据集成工作确定潜在的数据来源。数据探索将确定可能获取数据的位置以及可能集成的位置。数据探索还包括针对数据质量的高级评估工作，以确定数据是否适合集成计划的目标。数据探索生成完善组织的数据目录。

2.1.3 记录数据血缘

记录高级数据血缘：数据是如何被组织或创建的，它在组织中如何移动和变化以及如何被组织用于分析、决策或事件触发的。详细记录的数据血缘可包括根据哪些规则改变数据以及改变的频率。分析过程还可以提供改进现有数据流的机会。

2.1.4 剖析数据

理解数据的内容和结构是实现数据集成成功的关键，基本剖析包括：

数据结构中定义的数据格式和从实际数据中推断出来的格式
数据的质量，包括null值、空或默认数据的级别
数据值以及它们与定义的有效值结合的紧密联系
数据集内部的模式和关系，如相关字段和基数规则
与其他数据集的关系

2.1.5 收集业务规则

业务规则分为四类：业务术语定义、相互关联的术语的事实、约束或行为断言以及派生，实现数据集成和互操作需要业务规则的支撑，具体内容包括以下几个方面：

评估潜在的源数据集和目标数据集的数据
管理组织中的数据流
监控组织中的操作数据
指示何时自动触发事件和警报

2.2 设计数据集成解决方案

2.2.1 设计数据集成解决方案

数据集成解决方案应该在企业和单个解决方案两个层面上统筹考虑，解决方案体系结构表示将要使用的技术，它将包括所涉及数据结构的清单、数据流的编排和频率指示、法规、安全问题和补救措施以及有关备份和恢复、可用性和数据存档和保留。

选择交互模型：确定哪个交互模型或组合将满足需求-中心辐射型、点到点或发布订阅
设计数据服务或交换模式：闯进或重用现有的集成流来移动数据

2.2.2 建模数据中心、接口、消息、数据服务

数据集成和互操作中所需的数据结构包括数据持久化的数据结构，以及那些只是用于移动或转换数据的临时数据结构。这两种类型都应该建模。

2.2.3 映射数据源到目标

从源结构到目标结构的数据转换，做好从一个位置到另一个位置的数据格式转换规则，对于映射关系中的每个属性，映射规范如下：

指明源数据和目标数据的技术格式
指定源数据和目标数据之间所有中间暂存点所需的转换
描述最终或中间目标数据存储区中每个属性的填充方式
描述是否需要对数据值进行转换，如通过在表示适当目标值的表中查找源值
描述需要进行哪些计算

2.2.4 设计数据编排

数据流程编排是从开始到结束的数据流模式，包括完成转换和事务所需的所有中间步骤。

批量数据集成的流程编排将设定数据移动和转换的频率。批量数据集成通常被编码为一个调度器，它会在某个时间、周期或在事件发生时被触发启动。

实时数据集成流程编排通常由事件触发，如数据新增或更新。实时数据集成流程编排通常更复杂，通常需要跨越多个工具来实现，甚至可能都不是线性的过程。

2.3 开发数据集成解决方案

2.3.1 开发数据服务

开发服务来获取、转换和交付指定的数据，并且匹配所选的交互模型，建议在整个组织中使用一致的工具或标准的供应商套件，并且可以通过启用共享支持解决方案来简化操作支持，并降低运营成本。

2.3.2 开发数据流编排

对集成或ETL数据流通通常会采用专用工具以特有方式进行开发。对批量数据流将在一个调度器中开发，以管理执行已开发的数据集成组件的顺序、频率和依赖关系等。开发实时数据集成流涉及监控事件，这些事件触发相应服务执行来获取、转换或发布数据。

2.3.3 制定数据迁移方案

当上线新的应用程序就，或当应用程序退役或合并时，数据需要进行迁移这个过程涉及将数据转换为接收应用程序的格式。

2.3.4 制定发布方式

创建或维护关键数据的系统需要将这些数据提供给组织中的其他系统。生成数据的应用程序应该在数据更改或定期调度时，将新数据或更改后的数据推动到其他系统。

2.3.5 开发复杂事件处理流

开发复杂事件处理方案需要做以下几方面工作：

准备有关预测模型的个人、组织、产品或市场和迁移前的历史数据
处理实时数据流，充分填充预测模型、识别有意义的事件
根据预测执行触发的动作。

2.3.6 维护数据集成和互操作的元数据

可靠的元数据提高了组织管理风险、降低成本和从数据中获得更多价值的能力。记录所有系统的数据结构涉及源、目标和缓存的数据集成，包括业务定义和技术定义以及数据在持久化数据存储之间的转换。

对于数据集成和共享解决方案来说，特别重要的是SOA注册中心、它提供了一个不断发展变化的受控信息记录：即访问和使用应用程序中数据和功能的可用服务。

2.4 实施和检测

启用以开发并通过测试的数据服务时，对实时数据处理过程需要实时监测运行状况。应建立表示潜在问题的度量值爆以及直接反馈问题的机制，尤其是当触发响应的复杂性和风险增加时，应建立对反馈问题的自动化处理和人工监控流程。

三、工具

3.1 数据转换引擎/ETL工具

无论是批量还是实时，物理或虚拟的数据都存在运用非常复杂的工具来开发和执行ETL。对于单一的点对点解决方案，数据集成过程通脱自定义程序编码来实现。数据转换引擎选择的基本考虑应该包括是否需要运用批处理和实时功能，以及是否包括非结构化和结构化数据。

3.2 数据虚拟化服务器

数据虚拟化服务器对数据进行虚拟抽取、转换和集成。数据虚拟化服务器可以将结构化数据和非结构化数据进行合并。

3.3 企业服务总线（ESB）

ESB既指软件体系结构模型，又指一种面向消息的中间件，用于在同一组织内的异构数据存储、应用程序和服务器之间实现近乎实时的消息传递。ESB中通过在各个环境中安装适配器或代理软件，在参与消息交换的各个系统上实现数据传入和传出的消息队列。

3.4 业务规则引擎

许多数据集成解决方案依赖于业务规则，这些规则可用于基本的集成，可用于包含复杂事件处理的解决方案中，以便于组织能够准确实时地相应这些事件。

3.5 数据和流程建模工具

数据建模工具不仅用来设计目标数据结构，而且用来设计数据集成解决方案所需的中间数据结构。

3.6 数据剖析工具

数据剖析包括对数据集的内容统分析，以了解数据的格式、完整性、一致性、有效性和结构。

3.7 元数据存储库

元数据存储库包含有关组织中的数据的信息，包括数据结构、内容以及用于管理数据的业务规则。在数据集成项目中，可以使用一个或多个元数据存储库来记录数据源、转换和目标的数据的技术结构和业务含义。

四、方法

基本目标是保持应用程序松散耦合，限制开发和管理接口的数量，使用中心辐射方法并创建标准规范的接口等。

五、实施指南

5.1 就绪评估/风险评估

企业数据集成解决方案的选择通常是基于多个系统之间实现集成的成本合理性。设计一个企业数据集成解决方案，不仅要实现第一个应用程序和组织的集成，而且能支持在多个应用程序和组织之间移动数据。

采用新技术的数据集成开发项目常常将实施重点放在技术上，而忽略了业务目标。必须确保实施数据集成解决方案应保持在关注业务目标和需求上，包括确保每个项目中的参与者都有面向业务或应用程序的人员，而不仅是在数据集成工具专家。

5.2 组织和文化变革

组织必须确定管理数据集成实施的是由集中管理的团队负责，或是在分散的应用程序团队负责。本地团队了解他们的应用程序中的数据，中心管对对工具和技术有深刻的理解。

六、数据集成和互操作治理

业务利益相关方负责定义数据建模和转换规则，并应由他们批准对这些业务规则的任何改变，识别和验证预测模型以及定义预测自动触发的操作也属于业务功能。控制可能来自治理驱动的日程管理工作，eg：强制审查模型、审核元数据、控制可交付结果以及批准更改转换规则。

在服务水平协议和业务连续性/灾难恢复计划中，实时操作数据集成解决方案必须与它们提供数据的最关键系统采用同样的备份和恢复要求。需要制定相应制度，以确保组织从企业数据整合和互操作方法中获益。

6.1 数据共享协议

在开发接口或以电子方式提供数据之前，应制定一份数据共享协议或谅解备忘录。该协议规定了交换数据的责任和可接受的使用用途，并由相关数据的业务数据主管批准。数据共享协议应制定预期的数据使用和访问、使用的限制以及预期的服务级别，包括所需的系统启动时间和相应时间。

6.2 数据集成和互操作与数据血缘

数据血缘对于数据集成和互操作解决方案的开发非常有价值，治理需要确保记录数据来源和数据移动的信息，数据共享协议可能规定了数据使用的限制。对数据流进行更改时需要数据血缘信息，必须将此信息作为元数据解决方案的关键部分进行管理。前向和后向数据血缘是数据结构、数据流或数据处理更改时进行影响分析的重要组成部分。

6.3 度量指标

要衡量实现数据集成解决方案的规模和收益，包括可用性、数量、速度、成本和使用方面的指标。

数据可用性，请求数据的可获得性
数据量和速度，它包括：传送和转换的数量、，分析数据量，传送速度，数据更新与可用性之间的时延，时间与触发动作之间的时延，新数据源的可用时间。
解决方案成本和复杂度，包括：解决方案开发和管理成本，获得新数据的便利性，解决方案和运营的复杂度，使用数据集成解决方案的系统数量。

baidu_38792549

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
DAMA数据管理知识体系指南-读书笔记8

第八章数据集成和互操作一、引言1.1 业务驱动因素1. 2 目标和原则1.3 基本概念1.3.1 抽取、转换、加载（1）抽取（2）转换（3）加载（4）抽取、转换、加载（ELT）（5）映射1.3.2 时延（1）批处理（2）变更数据捕获（3）准实时和事件驱动（4）异步（5）实时，同步（6）低延迟或流处理1.3.3 复制1.3.4 归档1.3.5 企业消息格式/规范格式1.3.6 交互模型（1）点到点（2）中心辐射型
复制链接

扫一扫