数据挖掘需要数据集成---合并来自多个数据库的数据
一.模式集成和对象匹配
确定一个源的ID指的是另一个源的某字段(根据属性的元数据(字段名,含义,数据类型,属性的取值范围))
二.属性冗余
1.属性是连续数值计算相关系数(皮尔逊积矩系数)
N是元组的个数,ai和bi 分别是元组i中A和B的值
分别是A和B的均值
分别是A和B的标准差
是AB叉积的和
2.属性是离散数据卡方值
设 A有c个不同值 B有r个不同值 (Ai,Bj)= (A=ai,B=bj)
其中oij为(Ai,Bj)的观测频度即实际计数eij为期望频度
三.数据值冲突的检测预处理
在集成时 ,关注数据结构,确保源系统中的属性函数依赖和参照约束与目标系统中的匹配