数据预处理04_ 数据集成

数据集成是将多数据源合并的过程,面临实体识别、冗余分析和冲突处理等问题。实体识别关注等价实体匹配,确保属性的元数据一致。冗余和相关分析通过X²检验和相关系数识别冗余属性。去除重复数据防止不一致性,数据冲突处理解决不同数据源间属性值的差异。
摘要由CSDN通过智能技术生成

数据集成

数据集成就是将多个数据源中的数据合并,存放在一个一致的数据存储中:如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。

1.实体识别问题:

实体识别问题就是要合理匹配来自多个信息源的等价实体。

例如:如何确信一个数据库中的customer_id和另一个数据库中的cust_number指的是相同的属性?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或者null值的空值规则。

在集成期间,当一个数据库的虎山行和另一个数据库的属性匹配是,必须注意数据的结构。目的是确保源系统中的函数依赖和参照约束与目标系统中的匹配。

例如:在一个系统中,discount可能用于订单,而在另一个系统中,它用于订单内的商品。如果在集成之前未发现,则目标系统中的商品可能被不正确的打折。

2.冗余和相关分析

属性或维命名的不一致可能导致结构数据集中的冗余。一个属性(例如:年收入)如果能由另一个或者另一组属性“导出”,则这个属性可能是冗余的。

对于标称数据,我们使用x²(卡方)检验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清平乐的技术博客

你的鼓励是我最大创作动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值