十四、数据集成

最新推荐文章于 2024-08-02 08:08:24 发布

智享AI

最新推荐文章于 2024-08-02 08:08:24 发布

阅读量6.5k

点赞数 3

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/guangzhanblog/article/details/104745420

版权

数据挖掘专栏收录该内容

42 篇文章 22 订阅

订阅专栏

1.数据集成的概念和难点

1.1 数据集成的基本概念

数据集成是一个数据整合的过程。通过综合各数据源，将拥有不同结构、不同属性的数据整合归纳在一起，就是数据集成。
1、数据集成式将不同来源的数据整合在一个数据库中的过程。
2、不同的数据源定义属性时命名规则不同，存入的数据格式、取值方式、单位都会有不同。因此即便两个值代表的业务意义相同，也不代表存在数据库中的值就是相同的。

1.2 数据集成的难点

数据集成的本质是整合数据源，因此多个数据源中字段的语义差异、结构差异、字段间的关联关系，以及数据的冗余重复，都会是数据集成面临的问题。
1、实体识别问题
2、数据字段问题
3、冗余和相关性分析
4、元组重复
5、数据冲突与检测处理

2 实体识别问题

2.1 实体识别

我们可以对数据包括名字、含义、数据类型和属性的允许取值范围，以及处理空白、零或NULL值的空值规则。

3 数据字段问题

3.1 字段意义问题

在整合数据源的过程中，很可能出现这些情况：
1、两个数据源中都有一个字段名字叫“Payment”，但其实一个数据源中记录的是税前的薪水，另一个数据源中是税后的薪水。
2、两个数据源都有字段记录税前的薪水，但是一个数据源中字段名称为“Payment”，另一个数据源中字段名称为“Salary”。
可以整理一张专门用来记录字段命名规则的表格，使字段、表名、数据库名均能自动生成，并统一命名。一旦发生新的规则，还能对规则表实时更新。

3.2 字段结构问题

数据结构问题的产生是数据集成中几乎必然会产生的。在整合多个数据源时，这样的问题就是数据结构问题。
1、字段数据类型不同。一个数据源中存为INTEGER型，另一个数据源中存为CHAR型。
2、字段数据格式不同。一个数据源中使用逗号分隔，另一个数据源中用科学记数法。
3、字段单位不同。一个数据源中单位是一万人民币，另一个数据源中是美元。
4、字段取值范围不同。如，同样是存储员工薪水的Payment数值型字段，一个数据源中允许空值，NULL值，另一个数据源中不允许。
可以从业务上确定字段的基本属性。在后续进行数据集成时，可以通过上表对数据格式进行约束，从而避免因格式不同对集成带来的困扰。
在这里插入图片描述