9(第八章,数据集成和互操作)

目录

概述

实体识别

冗余属性识别

基本概念

抽取、转换、加载(ETL)

ETL和ELT的区别

时延

数据加载方法

数据集成和互操作架构概念

活动

度量指标

其他

集成中的一些定义

集成概述

技术架构

集成方式


概述

数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程。

  • 数据集成是将数据整合成物理的或虚拟的一致格式。
  • 数据互操作是多个系统之间进行通信的能力。

数据集成和互操作对数据仓库和商务智能、参考数据、主数据管理至关重要。

国家在这一块有一个信息交换模型NIEM。

在我们一些项目中,具体一些就是:

数据集成就是将不同来源、不同种类、不同格式的数据在物理或逻辑上集中起来,形成一个一致的数据集,目的就是为了提高数据的可用性和可访问性、并减少数据管理的成本和复杂性。不过由于数据源的不同有可能会造成数据模式的不匹配,所以要考虑实体识别和冗余属性识别的问题,从而将源数据在最底层上加以转换、提炼和集成。

实体识别

简单讲就是将检测不同数据源中识别出的现实世界的实体,将他们的矛盾之处变得统一。分为以下几点:

同名异义

属性名称相同但代表的数据意义不同。比如:数据源A和数据源B中有相同属性的ID,但是他们的描述分别是商品编号和订单编号,也就是描述的是不同的实体。

异名同义

属性名不同但数据意义相同。数据源A中的uid和数据源B中user_id虽然名称不相同,但描述的都是用户的ID。

单位不统一

同一个实体在不同数据源中的使用的单位不一致。比如:重量单位,在数据源A中单位是千克,而在数据源B中单位是磅。

冗余属性识别

冗余属性识别是数据集成中极易产生的问题,这一问题主要是由同一属性多次出现、同一属性命名方式不一致或者两个属性相关度高,一个属性可以被另一个属性推演出来,那么这个属性就是冗余的。而在出现了冗余数据的时候,需要去仔细地整合不同源的数据的,以减少或者避免数据冗余,从而增加数据挖掘的速度和质量。出现了数据冗余要先分析冗余的类型和原因,并根据属性在建模中的作用选择处理方式,比如:在出现重复属性可以直接删除;不同的命名但语义一致的属性可以先合并在删除冗余信息;有关联关系的属性可以通过分析发现数据的冗余情况。

基本概念

抽取、转换、加载(ETL)

数据集成和互操作的核心就是ETL这个基本过程。

ETL这三个字母的顺序并不是固定的,可以在一定场景改为ELT。

ELT这种场景就是如果目标系统比源系统或者中间应用系统具有更强的转换能力,那么处理数据的顺序可以从ETL切换为ELT,即抽取、加载、转换。这个在大数据环境中是很常见的。

ETL和ELT的区别

ETL和ELT的区别在于目标存储不同,前者是数仓-》BI,后者是数据湖-》AI。

再通俗来讲,ETL进入数仓的数据是业务场景已知的,ELT时业务场景还是不清晰的,ELT先不做场景。

而数仓和数据湖的一块区别就是,数据湖比数据仓库多存储了些非结构化数据。

时延

时延是从源系统生成数据到目标系统可用该数据的时间差。

时延的要求决定了数据的加载方法,因为时延可能很高(批处理),或较高(事件驱动),甚至是非常低(实时同步)。

数据加载方法

  1. 批处理
  2. 变更数据捕获CDC
  3. 准实时(Near-Real-Time)和事件驱动
  4. 异步
  5. 实时,同步
  6. 低延迟或流处理

数据集成和互操作架构概念

编排是一个术语,用来描述在一个系统中如何组织和执行多个相关流程。

活动

这里就先只看下企业服务总线的概念,因为和我之前理解的不一样:

度量指标

  1. 数据可用性
  2. 数据量和速度
  3. 解决方案成本和复杂度

其他

其实这块的东西,除了理论之外,我擅长的点也是在于ETL的具体开发,有一个专门的ETL专栏了,这里我就举几个方案上的,数据集成的片段:

集成中的一些定义

贴源层ODS:全称为Operational Data Store Layer,源系统数据在数据平台的入口,主要对同构或异构数据源的存储。

基础层DWI:全称为Date Warehouse Integration,从技术角度对数据进行清洗过滤及标准化处理,同时从技术角度进行数据质量技术规则稽核,并作为通用层及应用层的主要数据源。

通用层DWR:全称为Date Warehouse Report Layer,主要从应用角度,负责平台通用明细数据,以及对外共享的通用指标、通用宽表、通用汇总数据的明细载体。提供公共维度及维值的整合,同时负责数据质量业务规则稽核。

集市层DM:全称为Data Mart,由应用团队按需从数据架构角度设计自己的汇总区(根据业务需求对指标进行数据汇总)、应用区(根据业务需求进行应用开发),不和基础层、通用层相混淆。

集成概述

数据集成是指将xx公司IT系统中的业务源数据按需通过全量或者增量的方式接入xx公司数据平台中,并确保数据的一致性、有效性及适用性。源数据种类可包括结构化数据、非结构化数据。在本次项目中,使用到的数据集成工具为CDM云数据迁移工具。

批量数据迁移,依据使用场景的不同,分为表/文件迁移和整库迁移两种迁移内容。表/文件迁移主要用于数据迁移上云、云服务间的数据交换以及云上数据迁移至本地存储的使用场景,而整库迁移多用于数据库迁移上云。

技术架构

数据集成的实施依赖于数据平台基础设施,数据平台技术架构见下图一。数据平台技术架构依照数据的获取、处理、消费的流程共分为4个功能模块,分别为业务数据源、数据平台、数据服务与数据应用。

集成方式

①增量方式:依赖于源表时间戳以及增删改标识字段,若有增删改标识,按照180天时间范围进行覆盖更新。

②全量方式:针对数据量增长缓慢或非核心业务相关或无时间戳或无增删改标识以及数据量低于十万条的源表数据进行全量同步。

③周期调度:基于业务指标的需求,分为每天调度和每班次调度,无明确业务指标需求则采用每天调度。

④Hive缓存区:依照抽取周期,定时从源端数据库抽取增量,以Hive分区表方式存储,保留7天数据,用于数据回溯。

⑤Hive整合区:针对增量数据,定时从缓存区依照时间戳获取最新增量同步的数据,对增量数据进行增转全处理,保留最新的一份全量数据以Hive分区表方式存储,保留最新8天数据,用于数据回溯;针对全量数据,定时从源端业务系统获取全量数据,只保留最新的一份全量数据以Hive分区表方式存储。

⑥增转全:将增量缓存表中最新数据与全量整合表中最新数据进行整合、去重,并取最新状态数据存放在全量整合表中最新分区内。

⑦质量监控:基于数据探查发现的数据质量问题,结合数据标准,配置成数据质量监控作业,进行治理前质量监控。

  • 15
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值