数据集成

最新推荐文章于 2022-05-30 16:41:06 发布

alanlonglong

最新推荐文章于 2022-05-30 16:41:06 发布

阅读量838

点赞数 1

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alanlonglong/article/details/79058811

版权

数据挖掘专栏收录该内容

10 篇文章 0 订阅

订阅专栏

数据挖掘需要数据集成---合并来自多个数据库的数据

一.模式集成和对象匹配

确定一个源的ID指的是另一个源的某字段（根据属性的元数据（字段名，含义，数据类型，属性的取值范围））

二.属性冗余

1.属性是连续数值计算相关系数（皮尔逊积矩系数）

N是元组的个数，ai和bi 分别是元组i中A和B的值分别是A和B的均值分别是A和B的标准差是AB叉积的和

2.属性是离散数据卡方值

设 A有c个不同值 B有r个不同值（Ai,Bj）= (A=ai,B=bj)

其中oij为（Ai,Bj)的观测频度即实际计数eij为期望频度

三.数据值冲突的检测预处理

在集成时，关注数据结构，确保源系统中的属性函数依赖和参照约束与目标系统中的匹配

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据集成

数据挖掘需要数据集成---合并来自多个数据库的数据一.模式集成和对象匹配确定一个源的ID指的是另一个源的某字段（根据属性的元数据（字段名，含义，数据类型，属性的取值范围））二.属性冗余1.属性是连续数值计算相关系数（皮尔逊积矩系数）N是元组的个数，ai和bi 分别是元组i中A和B的值分别是A和B的均值分别是A和B的标准差是AB叉积的和2.属性是离散数据卡方值设 A有
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。