对来自多个数据存储的数据进行集成。
1.实体识别问题
数据集成是将来自多个数据源的数据进行合并存放在一个一致的数据存储中。数据集成时涉及到实体识别问题,如何确保一个实体对应不同名字可以最终映射到同一个名字上?
2.冗余和相关分析
一个属性如果可以由另一个或者 另一组属性导出,那可能这个属性就是冗余的。
有些冗余可以被相关分析检测到,对于标称数据可以用卡方检测,对于数值属性可以用相关系数和协方差。
1)标称数据的卡方检验
对来自多个数据存储的数据进行集成。
1.实体识别问题
数据集成是将来自多个数据源的数据进行合并存放在一个一致的数据存储中。数据集成时涉及到实体识别问题,如何确保一个实体对应不同名字可以最终映射到同一个名字上?
2.冗余和相关分析
一个属性如果可以由另一个或者 另一组属性导出,那可能这个属性就是冗余的。
有些冗余可以被相关分析检测到,对于标称数据可以用卡方检测,对于数值属性可以用相关系数和协方差。
1)标称数据的卡方检验