十四、数据集成

1.数据集成的概念和难点

1.1 数据集成的基本概念

数据集成是一个数据整合的过程。通过综合各数据源,将拥有不同结构、不同属性的数据整合归纳在一起,就是数据集成。
1、数据集成式将不同来源的数据整合在一个数据库中的过程。
2、不同的数据源定义属性时命名规则不同,存入的数据格式、取值方式、单位都会有不同。因此即便两个值代表的业务意义相同,也不代表存在数据库中的值就是相同的。

1.2 数据集成的难点

数据集成的本质是整合数据源,因此多个数据源中字段的语义差异、结构差异、字段间的关联关系,以及数据的冗余重复,都会是数据集成面临的问题。
1、实体识别问题
2、数据字段问题
3、冗余和相关性分析
4、元组重复
5、数据冲突与检测处理

2 实体识别问题

2.1 实体识别

我们可以对数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或NULL值的空值规则。

3 数据字段问题

3.1 字段意义问题

在整合数据源的过程中,很可能出现这些情况:
1、两个数据源中都有一个字段名字叫“Payment”,但其实一个数据源中记录的是税前的薪水,另一个数据源中是税后的薪水。
2、两个数据源都有字段记录税前的薪水,但是一个数据源中字段名称为“Payment”,另一个数据源中字段名称为“Salary”。
可以整理一张专门用来记录字段命名规则的表格,使字段、表名、数据库名均能自动生成,并统一命名。一旦发生新的规则,还能对规则表实时更新。

3.2 字段结构问题

数据结构问题的产生是数据集成中几乎必然会产生的。在整合多个数据源时,这样的问题就是数据结构问题。
1、字段数据类型不同。一个数据源中存为INTEGER型,另一个数据源中存为CHAR型。
2、字段数据格式不同。一个数据源中使用逗号分隔,另一个数据源中用科学记数法。
3、字段单位不同。一个数据源中单位是一万人民币,另一个数据源中是美元。
4、字段取值范围不同。如,同样是存储员工薪水的Payment数值型字段,一个数据源中允许空值,NULL值,另一个数据源中不允许。
可以从业务上确定字段的基本属性。在后续进行数据集成时,可以通过上表对数据格式进行约束,从而避免因格式不同对集成带来的困扰。
在这里插入图片描述

4 冗余和相关性分析

4.1 冗余的概念

冗余是数据集成的另一个重要问题。一个属性(例如,年收入)如果它能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致数据集中的冗余。

4.2 相关分析检测冗余

冗余可以被相关分析检测到。例如,给定两个属性,根据可用的数据,这种分析可以度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用卡方检验。对于数值属性,我们使用相关系数和协方差,它们都评估一个属性的值如何随另一个变化。

4.3 标称属性的卡方检验

假如收集了100份数据用于研究,其中有48名男性,52位女性。在收集数据前预期男女比例应该是4:6 (40%为男性,60%为女性),现在想分析实际收集到的数据比例与预期的比例有没有显著的差异。
在这里插入图片描述

  • 数值属性的协方差分析
    在这里插入图片描述

5 元组重复与数据冲突检测处理

  • 除了检测属性间的冗余外,还应当在元组级检测重复(例如,对于给定的唯一数据实体,存在两个或多个相同的元组)。
  • 数据集成还涉及数据值冲突的检测与处理。例如:对于同一实体,来自不同数据源的属性值可能不同。属性也可能在不同的抽象层,其中属性在一个系统中记录的抽象层可能比另一个系统中相同的属性低。

6 总结

数据集成的本质是整合数据源,因此多个数据源中字段的语义差异、结构差异、字段间的关联关系,以及数据的冗余重复,都会是数据集成面临的问题。

  • 实体识别问题
  • 数据字段问题
  • 冗余和相关性分析
  • 元组重复
  • 数据冲突与检测处理
    重复,都会是数据集成面临的问题。
  • 实体识别问题
  • 数据字段问题
  • 冗余和相关性分析
  • 元组重复
  • 数据冲突与检测处理
  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值