[DataAnalysis]变量相似性和相异性的度量

变量的相异度:距离

1、欧几里得距离

d(x,y)=\sqrt{\sum_{k=1}^{n}(x_k-y_k)^2}

2、闵可夫斯基距离

d(x,y)=\lim_{r\rightarrow \infty }(\sum_{k=1}^{n}|x_k-y_k|^r)^\frac{1}{k}

相似度

1、简单匹配系数

SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}}

2、Jaccard系数

假设每个非对称的二元属性对应于商店的一种商品,则1表示该商品被购买,而0表示该商品未被购买。由于未被购买的商品数远大于被其购买的商品数,因而像SMC这样的相似性度量将会判别所有的事务都是类似的。这样,常常使用Jaccard系数来处理仅包含非对称的二元属性的对象

J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}}

3、余弦相似度

简单匹配系数和Jaccard系数都是二元数据的相似性度量。

cos(x,y)=\frac{xy}{||x||||y||}

4、广义Jaccard系数

广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。

EJ(x,y)=\frac{xy}{||x||^2+||y||^2-xy}

5、相关性

corr(x,y)=\frac{covariance(x,y)}{standard\_deviation(x)\times standard\_deviation(y)}=\frac{s_{xy}}{s_xs_y}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值