数据集成
数据集成就是将多个数据源中的数据合并,存放在一个一致的数据存储中:如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。
1.实体识别问题:
实体识别问题就是要合理匹配来自多个信息源的等价实体。
例如:如何确信一个数据库中的customer_id和另一个数据库中的cust_number指的是相同的属性?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或者null值的空值规则。
在集成期间,当一个数据库的虎山行和另一个数据库的属性匹配是,必须注意数据的结构。目的是确保源系统中的函数依赖和参照约束与目标系统中的匹配。
例如:在一个系统中,discount可能用于订单,而在另一个系统中,它用于订单内的商品。如果在集成之前未发现,则目标系统中的商品可能被不正确的打折。
2.冗余和相关分析
属性或维命名的不一致可能导致结构数据集中的冗余。一个属性(例如:年收入)如果能由另一个或者另一组属性“导出”,则这个属性可能是冗余的。
对于标称数据,我们使用x²(卡方)检验
对