相似度计算的三种方式

本文介绍了三种相似度计算方法:欧几里德评价用于衡量两点间的距离,皮尔逊相关评价用于评估两个变量间的线性相关性,而Tanimoto分值则用于计算集合间的相似程度。这些方法在不同场景下有不同的适用范围,如用户评价分析和数据集相似性检测。
摘要由CSDN通过智能技术生成

相似度计算的三种方式

欧几里德评价

欧几里得度量(euclidean metric)(也称欧式距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。

0ρ = sqrt( (x1-x2)^2+(y1-y2)^2 )

similarity = 1/(op + 1)
最终的similarity就是相似度评价的值

皮尔逊相关评价

皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示无关,-1 表示完全负相关。
相关公式:
这里写图片描述
皮尔逊相关的约束条件

从以上解释, 也可以理解皮尔逊相关的约束条件:

1 两个变量间有线性关系
2 变量是连续变量
3 变量均符合正态分布,且二元分布也符合正态分布
4 两变量独立
在实践统计中,一般只输出两个系数,一个是相关系数,也就是计算出来的相关系数大小,在-1到1之间;另一个是独立样本检验系数,用来检验样本一致性.

适用范围

适用于A的评价普遍高于B的评价

Tanimoto分值

公式如下图所示:
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值