常用相似性度量(距离 相似系数)

在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.

X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量,

 

1.欧几里得距离(Euclidean distance)

相当于高维空间内向量说表示的点到点之间的距离。
由于特征向量的各分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。
优点:简单,应用广泛(如果也算一个优点的话)
缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果。


2.马氏距离(Mahalanobis distance)

C=E[(X-X平均)(Y-Y平均)]为该类输入向量X的协方差矩阵.(T为转置符号,E取平均时是样本因此为n-1)

适用场合:
1)度量两个服从同一分布并且其协方差矩阵为C的随机变量X与Y的差异程度
2)度量X与某一类的均值向量的差异程度,判别样本的归属。此时,Y为类均值向量.
优点:
1)独立于分量量纲
2)排除了样本之间的相关性影响。
缺点:不同的特征不能差别对待,可能夸大弱特征。


3.闵可夫斯基距离(Minkowsk distance)

可看成是欧氏距离的指数推广,还没有见到过很好的应用实例,但通常,推广都是一种进步:)
特别的,当p=1,也成做街坊距离或曼哈顿距离,也称绝对距离。


4.汉明距离(Hamming distance)

还记得汉明码吗,海明距离就是表示X,Y取值不同的分量数目,只适用分量只取-1或1的情况。
 


5.Tanimoto系数(又称广义Jaccard系数)




通常应用于X为布尔向量,即各分量只取0或1的时候。此时,表示的是X,Y的公共特征的占X,Y所占有的特征的比例。


6.皮尔逊相关系数(Pearson correlation coefficient)

其实就是高中学过的相关系数啦,等于X,Y的协方差除以X,Y的标准差之积。不多说了。
    这东西在多元统计课本上出现时竟然就称为相关系数,什么名称都没有。


7.余弦相似度(cosine similarity)

就是两个向量之间的夹角的余弦值。

应用场合:通常应用于X为布尔向量,即各分量只取0或1的时候。此时,和Tanimoto类似,是X,Y公共特征数目的测量。

优点:不受坐标轴旋转,放大缩小的影响。

还有一个调整余弦相似度(Adjusted Cosine Similarity),和余弦相似度的计算不同的是,X,Y在减去用户平均评分向量后再代入余弦相似度公式中计算。调整余弦相似度和余弦相似度,皮尔逊相关系数在推荐系统中应用较多。在基于项目的推荐中,GroupLens有篇论文结果表明调整余弦相似度性能要优于后两者。


参考资料:

http://en.wikipedia.org/wiki/Metric_space#Examples_of_metric_spaces
《模式识别导论》--齐敏等

 

From:http://hi.baidu.com/sunblackshine/blog/item/8412c800623c33121d9583b1.html

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 基于相似系数相似性度量方法是一种常用相似性度量方法,它可以用来计算两个对象之间的相似度。该方法的基本思想是通过比较两个对象之间的相似性来判断它们的相似度。具体来说,该方法通常将两个对象表示为特征向量,然后计算它们之间的相似系数。 常见的相似系数包括余弦相似系数、皮尔逊相关系数和欧几里得距离等。其中,余弦相似系数是指两个向量之间的夹角余弦值,可以用来度量两个向量的相似程度,取值范围在-1到1之间;皮尔逊相关系数是指两个向量之间的线性相关性,可以用来衡量两个向量之间的相关程度,取值范围在-1到1之间;欧几里得距离是指两个向量之间的距离,可以用来度量两个向量之间的相似程度,取值范围在0到正无穷之间。 在实际应用中,选择何种相似系数取决于具体的应用场景和需要度量的对象特征。 ### 回答2: 基于相似系数相似性度量方法是一种常用的用于比较两个对象之间相似程度的方法。相似系数是一个定量的指标,用于衡量两个对象之间的相似性,数值越大表示两个对象越相似。 在基于相似系数相似性度量方法中,首先需要确定一个相似度的计算公式。常用相似度计算方法有很多种,如余弦相似度、欧氏距离、曼哈顿距离等。这些计算公式根据不同的应用领域和需求选择不同的方法。 接下来,需要将两个要比较的对象转换成相应的特征向量形式。特征向量是对象的一种数学表示,通过提取对象的特征,将其转换为向量形式。常用的特征提取方法有基于文本的TF-IDF、词袋模型,以及基于图像的颜色、纹理等特征。 然后,根据选定的相似度计算方法,计算两个对象之间的相似性得分。计算过程中,根据特征向量的相似程度,应用相似度计算公式得到相似度得分。 最后,根据得到的相似度得分进行相似性度量。一般情况下,相似度得分介于0到1之间,其中0表示完全不相似,1表示完全相似。根据需求,可以设定一个相似度的阈值,判断两个对象是否相似。 基于相似系数相似性度量方法在信息检索、推荐系统、模式识别等领域广泛应用。通过计算对象之间的相似度,可以帮助我们发现对象之间的关联性,进而做出更准确的判断和决策。 ### 回答3: 基于相似系数相似性度量方法是一种在数据挖掘、信息检索等领域常用的方法,用于衡量两个对象之间的相似程度。其基本思想是将对象表示为特征向量,并通过比较这些特征向量的相似性来度量对象的相似性。 在基于相似系数相似性度量方法中,常用相似性度量包括欧氏距离、余弦相似度和皮尔逊相关系数等。欧氏距离是最常用相似性度量方法之一,它衡量了两个向量之间的欧几里得距离,即两个向量在各个维度上对应元素的差的平方和的平方根。余弦相似度则是通过计算两个向量的夹角来衡量它们的相似性,夹角越小,余弦相似度越大。皮尔逊相关系数则用于衡量两个向量之间的线性相关程度,其取值范围为-1到1,越接近1表示相关性越强。 基于相似系数相似性度量方法在实际应用中具有广泛的应用。例如,在推荐系统中,可以通过计算用户与物品的相似性来给用户进行个性化推荐。在图像处理中,可以通过比较图像的特征向量来进行图像相似性检索。在文本分析中,可以通过比较文本的词频向量来评估文本之间的相似性。 需要注意的是,基于相似系数相似性度量方法并不能完全反映对象之间的相似程度,因为它只考虑了对象的特征向量,而没有考虑到其他可能的因素。因此,在具体应用中需要结合具体情况选择适合的相似性度量方法,并综合考虑其他因素来评估对象的相似性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值