DAMA数据管理知识体系
前言
该章节主要是针对DAMA数据管理知识体系的学习笔记中数据集成和互操作,思维导图如下(考题2分)
文章目录
数据集成和互操作
1. 定义
- 数据集成和互操作(DII)描述了数据在不同数据存储、应用程序 和组织这三者内部和之间进行移动和整合的相关过程。
2. 业务驱动因素
- 数据集成和互操作主要目的是为了对数据移动进行有效管理
- 管理数据集成的复杂性以及相关成本是建立数据集成 架构的原因
3. 目标和原则
3.1 目标
- 及时以数据消费者(人和系统)所需的格式提供数据。
- 将数据物理地或虚拟地合并到数据中心。
- 通过开发共享模型和接口来降低管理解决方案的成本和复杂 度。
- 识别有意义的事件(机会和威胁),自动触发警报并采取相应 行动。
- 支持商务智能、数据分析、主数据管理以及运营效率的提升。
3.2 原则
- 采用企业视角确保未来的可扩展性设计,通过迭代和增量交付 实现。
- 平衡本地数据需求与企业数据需求,包括支撑与维护。
- 确保数据集成和互操作设计和活动的可靠性。业务专家应参与 数据转换规则的设计和修改,包括持久性和虚拟性。
4. 基本概念
4.1 抽取、转换、加载(ETL)
数据集成和互操作的核心是抽取、转换和加载(ETL)这一基本过程
-
抽取
抽取过程包括选择所需的数据并从其源数据中提取。然后,被抽取 的数据会在磁盘或内存中的物理数据存储库中进行储存。
-
转换
转换的例子包括:
格式变化
结构变化
语义转换
消除重复
重新排序
-
加载
加载过程是在目标系统中物理存储或呈现转换结果。
4.2 抽取、加载、转换(ELT)
如果目标系统比源系统或中间应用系统具有更强的转换能力,那么 数据处理的顺序可以切换为ELT——抽取、加载、转换
用ELT的方式加载至数据湖,这在大数据环境中是很常见的
- 应用场景
- 数仓:结构化,ETL,BI,已经发生的事件的总结
- 数据湖:结构+非结构,ELT,AI,对未来的预测
4.3 映射(Mapping)
- 是转换的同义词。它既是从源结构到目标结构建立查找矩阵的过程。也是该过程的结果
5. 时延
-
是指从源系统生成数据到目标系统可用该数据的时间差
-
时延决定了你可选用的ETL的方法
-
数据处理方法
-
批处理(ETL)
-
变更数据捕获 (CDC)
-
准实时和事件驱动(Near-Real-Time)
大多数未采用批量方式的数据集成解决方案都是使用准实时或事件 驱动的方式。
-
异步
-
实时,同步
-
低延迟或流处理
-
6. 交互模型
定义:描述了在系统之间建立连接以传送数据的方式
- 类别
- 点到点
- 中心辐射型
- 发布与订阅
7. 度量指标
- 数据可用性
- 数据量和速度
- 解决方案成本和复杂度