(4)数据--相似性与相异性

相似性和相异性(区别性,不同性)

      相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯。相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了。

相似性与相异性的转换

      相似性和相异性通常都用区间[0,1]内的数值来表示。这两种值是负相关的,因此理论上任意单调递减的函数都可以用来进行两种值的转换。比如定义s为相似性的值,d为相异性的值,辣么s=1-d,d=1-s就是一种合理的转换。

简单属性值之间的相似性与相异性

      对于nominal类型而言,唯一能做的就是比较看两个值是否相同了,那么可以定义相似性为s=1,if 两个值相同,否则s=0。相异性的取值反之。对于ordinal,可以把取值符号都映射成数字,比如{1,2,3,4,5},那么可以定义相异性d为两个取值的差,或者差再除以最大取值与最小取值的差。注意这里假设了相等的间距,这个假设可能不太合理。对于interval和ratio类型的属性而言,可以用差的绝对值来定义相异性。

数据个体间的相异性

      数据个体的相异性可以简单定义为两个数据个体所表示向量的距离,比如可以用欧氏距离来衡量:

 

事实上,欧氏距离是Minkowski距离的一种情况。

Minkowski Distance:  

对于上式,当r=1时就是曼哈顿距离了,当r=2就是欧氏距离(即L2 norm), 当r=无穷大时就是Lmax norm。

距离有以下一些属性。

1.Positivity

       当x=y时

2.对称性

       

3.三角形定理

       

三角形定理可以用来加速某些依赖于距离度量的操作。注意有很多相异性是不满足以上某些式子的。

数据个体间的相似性

      对Binary数据的距离的衡量。

Simple Matching Coefficient(SMC)

      SMC=取值相同的属性数/总属性数

SMC不适用于非对称的数据,Jaccard Coefficient比较适合,因为它忽略了零值的匹配。

      J=取值相同且非零的属性数/总属性数

余弦相似性,类似于Jaccard,忽略了零值的匹配,比较适合处理非对称数据。同时,余弦忽略了magnitude的影响,通过正规化得到只与方向有关的一个度量。

         杠杠x,杠杠y,即两个向量的点积除以两个长度(L2 norm)

还有一种Jaccard Coefficient的扩展,可以用来计算非Binary的向量的相似性:

      

最后提一个相关系数(Correlation),这是一个衡量两个数据个体的线性相关性的量。常用的是Pearson's Correlation。

       ,这里cov是协方差,std是标准差

       

     

   ...

       

相似性相异性相关问题

  如何处理不同Scale的变量---标准化

  如何处理属性间具有相关性的数据---马氏距离(Mahalanobis Distance)

  如何处理不同类型的属性(比如有的属性是nominal有的是interval):

       ,这里的 取0或者1。当第k个属性是非对称属性,且两个数个体的对应属性去0时,或者其中一个的值缺失时,取0,否则取1。此外还可以对属性们赋予不同的权重值。

 

 

 

补充

独立: 

不相关: 

独立—>不相关     逆否命题: 相关—>不独立

对于均值为零的高斯随机过程而言:不相关—>独立

正交: 

当其中有一个是期望为零的随机过程时,不相关<—>正交

 

转载于:https://www.cnblogs.com/acetseng/p/4496592.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值