第八章 数据集成和互操作

1. 定义

  • 数据集成和互操作(DII)描述了数据在不同数据存储、应用程序 和组织这三者内部和之间进行移动和整合的相关过程。

2. 业务驱动因素

  • 数据集成和互操作主要目的是为了对数据移动进行有效管理

  • 管理数据集成的复杂性以及相关成本是建立数据集成 架构的原因

3. 目标和原则

目标
  • 及时以数据消费者(人和系统)所需的格式提供数据。

  • 将数据物理地或虚拟地合并到数据中心。

  • 通过开发共享模型和接口来降低管理解决方案的成本和复杂 度。

  • 识别有意义的事件(机会和威胁),自动触发警报并采取相应 行动。

  • 支持商务智能、数据分析、主数据管理以及运营效率的提升。

原则
  • 采用企业视角确保未来的可扩展性设计,通过迭代和增量交付 实现。

  • 平衡本地数据需求与企业数据需求,包括支撑与维护。

  • 确保数据集成和互操作设计和活动的可靠性。业务专家应参与 数据转换规则的设计和修改,包括持久性和虚拟性。

4. 基本概念

  1. 抽取、转换、加载(ETL)——数据仓库

    结构化数据进数仓。数据仓库最终目标是BI

    • 抽取

      抽取过程包括选择所需的数据并从其源数据中提取。然后,被抽取 的数据会在磁盘或内存中的物理数据存储库中进行储存。

    • 转换

      转换的例子包括:

      格式变化

      结构变化

      语义转换

      消除重复

      重新排序

    • 加载

      加载过程是在目标系统中物理存储或呈现转换结果。

  2. 抽取、加载、转换(ELT)——数据湖

    结构化和非结构化数据可以进数据湖。数据湖最终目标是AI

    如果目标系统比源系统或中间应用系统具有更强的转换能力,那么 数据处理的顺序可以切换为ELT——抽取、加载、转换

    用ELT的方式加载至数据湖,这在大数据环境中是很常见的

    • 应用场景

      • 数仓:结构化,ETL,BI,已经发生的事件的总结

      • 数据湖:结构+非结构,ELT,AI,对未来的预测

  3. 映射(Mapping)

    • 是转换的同义词。它既是从源结构到目标结构建立查找矩阵的过程。也是该过程的结果

  4. 时延

    • 是指从源系统生成数据到目标系统可用该数据的时间差

    • 时延决定了你可选用的ETL的方法

    • 数据处理方法

      • 批处理(ETL)

      • 变更数据捕获 (CDC)

      • 准实时和事件驱动(Near-Real-Time)

      • 大多数未采用批量方式的数据集成解决方案都是使用准实时或事件 驱动的方式。

      • 异步

      • 实时,同步

      • 低延迟或流处理

5 交互模型

定义:描述了在系统之间建立连接以传送数据的方式

类别:

  • 点到点

  • 中心辐射型

  • 发布与订阅

6 数据集成和互操作架构概念
  • 应用耦合

    描述了两个系统交织的程度。

  • 编排和流程控制(描述在一个系统如如何编排任务流)

    编排(Orchestration)是一个术语,用来描述在一个系统中如何组织和执行多个相关流程。所有处理消息或数据报的系统,必须能够管理这些流程的执行顺序,以保持一致性和连续性。

  • 企业应用集成

  • 企业服务总线(ESB)在中国叫数据中台

  • 面向服务的架构

7 数据交换标准
  • 国家信息交互模型(NIEM):是为在美国政府机构之间的交互文件和交易二开发的数据交换标准

8 度量指标
  • 1)数据可用性

  • 2)数据量和速度

  • 3)解决方案成本和复杂度

    ETL软件:

    • Kettle

    • DataX

    • Informatica

    • Talend

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值