DAMA数据管理知识体系-数据集成和互操作

DAMA数据管理知识体系

在这里插入图片描述

前言

该章节主要是针对DAMA数据管理知识体系的学习笔记中数据集成和互操作,思维导图如下(考题2分)
在这里插入图片描述


数据集成和互操作

1. 定义

  • 数据集成和互操作(DII)描述了数据在不同数据存储、应用程序 和组织这三者内部和之间进行移动和整合的相关过程。

2. 业务驱动因素

  • 数据集成和互操作主要目的是为了对数据移动进行有效管理
  • 管理数据集成的复杂性以及相关成本是建立数据集成 架构的原因

3. 目标和原则

3.1 目标

  • 及时以数据消费者(人和系统)所需的格式提供数据。
  • 将数据物理地或虚拟地合并到数据中心。
  • 通过开发共享模型和接口来降低管理解决方案的成本和复杂 度。
  • 识别有意义的事件(机会和威胁),自动触发警报并采取相应 行动。
  • 支持商务智能、数据分析、主数据管理以及运营效率的提升。

3.2 原则

  • 采用企业视角确保未来的可扩展性设计,通过迭代和增量交付 实现。
  • 平衡本地数据需求与企业数据需求,包括支撑与维护。
  • 确保数据集成和互操作设计和活动的可靠性。业务专家应参与 数据转换规则的设计和修改,包括持久性和虚拟性。

4. 基本概念

4.1 抽取、转换、加载(ETL)

数据集成和互操作的核心是抽取、转换和加载(ETL)这一基本过程

  • 抽取

    抽取过程包括选择所需的数据并从其源数据中提取。然后,被抽取 的数据会在磁盘或内存中的物理数据存储库中进行储存。

  • 转换

    转换的例子包括:

    格式变化

    结构变化

    语义转换

    消除重复

    重新排序

  • 加载

    加载过程是在目标系统中物理存储或呈现转换结果。

4.2 抽取、加载、转换(ELT)

如果目标系统比源系统或中间应用系统具有更强的转换能力,那么 数据处理的顺序可以切换为ELT——抽取、加载、转换

用ELT的方式加载至数据湖,这在大数据环境中是很常见的

  • 应用场景
    • 数仓:结构化,ETL,BI,已经发生的事件的总结
    • 数据湖:结构+非结构,ELT,AI,对未来的预测

4.3 映射(Mapping)

  • 是转换的同义词。它既是从源结构到目标结构建立查找矩阵的过程。也是该过程的结果

5. 时延

  • 是指从源系统生成数据到目标系统可用该数据的时间差

  • 时延决定了你可选用的ETL的方法

  • 数据处理方法

    • 批处理(ETL)

    • 变更数据捕获 (CDC)

    • 准实时和事件驱动(Near-Real-Time)

      大多数未采用批量方式的数据集成解决方案都是使用准实时或事件 驱动的方式。

    • 异步

    • 实时,同步

    • 低延迟或流处理

6. 交互模型

定义:描述了在系统之间建立连接以传送数据的方式

  • 类别
    • 点到点
    • 中心辐射型
    • 发布与订阅

7. 度量指标

  • 数据可用性
  • 数据量和速度
  • 解决方案成本和复杂度
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值