读书笔记 -- 002_数据预处理_数据集成

最新推荐文章于 2022-02-28 20:56:29 发布

烤鱼想睡觉

最新推荐文章于 2022-02-28 20:56:29 发布

阅读量2.1k

点赞数

分类专栏：数据挖掘概念知识数据预处理数据集成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/redaihanyu/article/details/50215973

版权

本文介绍了数据预处理中的数据集成问题，包括实体识别和冗余分析。实体识别关注如何在不同数据库中匹配相同实体，而冗余分析通过x^2相关检验和相关系数检测属性间的相关性，以降低数据集的冗余。

摘要由CSDN通过智能技术生成

概述
数据挖掘经常需要数据集成 – 合并来自多个数据源的数据。小心集成有助于减少结果数据集的冗余和不一致。这有助于提高其后数据挖掘的准确性和速度。

1、实体识别问题

数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并，存放那个在一个一致的数据存储中，如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。

自数据集成时，有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”？这涉及实体识别问题。例如，数据分析者或者计算机如何才能确定一个数据库的customer_id与另一个数据库中的cust_number指的是相同的属性呢？每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围，以及处理空白、零或NULL值得空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用于变换数据(例如，pay_type的数据编码在一个数据库中可以是“H”和“S”，而在另一个数据库中是1和2)。因此，这一步也与前面介绍的数据清理有关。

在集成期间，当一个数据库的属性和另一个数据库的属性匹配时，必须特别注意数据的结构。这旨在确保源系统中的函数和参考约束与目标系统中的匹配。例如，在一个系统中，discount可以用于订单，而在另外一个系统中，它被用于订单内的商品。如果在集成之前未发现，则目标系统中的商品可能被不正确地打折。

2、冗余和相关分析

冗余是数据集

最低0.47元/天解锁文章

烤鱼想睡觉

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。