商务智能与数据挖掘 - 衡量数据相似性和相异性

标称属性的相异性度量

在这里插入图片描述

二元属性的相异性度量

二元属性只有两种状态:0或1 ,其中0表示该属性不出现,1表示出现
二元属性之间的相异性的计算。 如果所有的二元都被看做具有相同的权重(对称二元属性), 则i和j的相异性我们得到以下列表。

在这里插入图片描述
对于非对称的二元属性,两个状态不是同等重要的; 比如病理化验的阳性(1)和阴性(0)结果。
给定两个非对称的二元属性,两个都取值1的情况(正 匹配)被认为比两个都取值0的情况(负匹配)更有意 义。
基于这种属性的相异性被称为非对称的二元相异性, 其中负匹配数t被认为是不重要的,因此在计算时被忽 略,如下所示
在这里插入图片描述

二元属性的邻近性度量

我们还可以基于相似性而不是相异性来度量两个二元 属性的差别。
对象i和之间的非对称二元相似性可以用下式计算:
在这里插入图片描述
式中的系数sim(i,j)被称作Jaccard系数,它在文献中被广 泛使用。

数值属性的相异性

在这里插入图片描述
欧几里得距离与曼哈顿距离满足如下数学性质
在这里插入图片描述
在这里插入图片描述

序数属性的相异性度量

序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知。例子包括size属性的值序列small、 medium、large
在这里插入图片描述

混合类型属性的相异性

一种方法是将每种类型的属性分成一组,对每种类型分别进 行数据挖掘分析。如果这些分析得到兼容的结果,则这种方 法是可行的。然而在实际的应用中,每种属性类型分别分析 不大可能产生兼容的结果。
一种更可取的方法是将所有属性类型一起处理,只做一次分 析。一种这样的技术将不同的属性组合在单个相异矩阵中, 把所有有意义的属性转换到共同的区间[0.0,1.0]上
在这里插入图片描述

余弦相似性

  • 文档有数以千计的属性表示
  • 词频向量记录了特定词的频度
  • 通常很长,并且是稀疏的
  • 如果找到两个文档间确实共同的值
    在这里插入图片描述

小结

•基本统计描述为数据预处理提供了分析基础。数据概括的基本统计度 量包括度量数据中心趋势的均值、加权平均、中位数和众数,以及度 量数据散布的极差、分位数、四分位数、四分位数极差、方差和标准 差。图像表示有助于数据的可视化考察,因而对数据预处理和挖掘是 有用的。

•数据可视化技术可以是基于像素的、基于几何学的、基于图标的或层 次的。这些方法用于多维关系的数据。已经提出了可用于复杂数据 (如文本和社会网络)的可视化技术。

•对象相似性和相异性度量用于诸如聚类、离群点分析、近邻分类等 数据挖掘应用中。这种邻近性度量可以对本章介绍的每种属性类型或 这些属性类型的组合进行计算。例子包括用于非对称二元属性的 Jaccard系数,用于数值属性的欧几里得距离、曼哈顿距离、闵可夫斯 基距离和上确界距离。对于涉及稀疏数值数据向量(如词频向量)的 应用,余弦度量和Tanimoto系数通常用于相似性评估

  • 4
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值