sklearn tfidf求余弦相似度_数理统计（三）：相似度衡量方法及应用总结

最新推荐文章于 2022-02-15 10:59:57 发布

weixin_39771614

最新推荐文章于 2022-02-15 10:59:57 发布

阅读量547

点赞数

文章标签： sklearn tfidf求余弦相似度

本文链接：https://blog.csdn.net/weixin_39771614/article/details/111581476

版权

本文总结了不同相似度衡量方法，包括SMC/Jaccard Coefficients、Pearson相关系数、欧式距离、Cosine Similarity、Spearman和Kendall秩相关系数。内容涵盖了各种方法的适用场景、优缺点及其在数据挖掘、文本相似度计算中的应用。例如，Jaccard系数适用于二元变量，Pearson相关系数用于线性相关性，而Cosine Similarity常用于词向量的相似度计算。

摘要由CSDN通过智能技术生成

概述：

由卡方检验在变量相关度的应用联想到不同的相似度衡量方法，故按照其适用变量、各个方法之间的关联及应用领域进行总结。主要包括SMC、Jaccard、pearson、spearman、Euclidean distance、cos similarity、kendall几种方法

1.SMC（simple matching coefficient）或Jaccard Coefficients：

适用二元变量/名义变量（词汇/元素相似度）

SMC：1和0（特征相同和不同）均考虑；Jaccard Coefficients：只有变量出现1（变量的特征相同）才予以考虑，SMC则认为0，1均为特征，类似于两种花色，一种设置为0，另一种设置为1，故0，1对相似度的判断均有影响

Jaccard Coefficients主要用于计算符号度量或布尔值度量的个体间的相似度，个体的特征属性由符号度量或者布尔值标识无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以Jaccard系数只判断个体间共同具有的特征是否一致这个问题。

与Jaccard 相似系数相关的指标叫做Jaccard 距离，用于描述集合之间的不相似度。它是Jaccard相似系数的补集，被定义为1减去Jaccard相似系数。Jaccard 距离越大，样本相似度越低。

应用举例：

1）超市中的产品购买记录的相似性---挖掘相似用户（两种度量均可，因为不购买某种产品也能反应消费习惯）

2）不同手机有品牌/颜色/等多项特征，1代表相同，0代表不同（不同可能有很多类，所以0与相似度无关，这种情况适用Jaccard Coefficients）

3）词汇/集合元素相似度，尤其是数量不同的时候，使用Jaccard

在每条产品购买记录中，购买的产品为1，未被购买的产品为0

代码:

2.Pearson相关系数

线性相关系数，对数据分布要求较高

公式：

范围：-1到1

缺点：

1）与样本数量有关，如果n过小，很有可能出现接近1，n过大可能小于1；且显著性检验时采用的t检验要求数据来自正态分布，样本过小可能导致要求不满足

2）从含义看，如果出现X=（1，1，1）向量，其标准差为0，分母为0所以无法计算pearson相关系数

应用：

1）求两样品的不同特征之间的相关系数，从而用于降维

2）根据相关度进行聚类

与cos联系：

实际上是做了标准化的cos，皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进, 皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进, 皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进. Cos用过取均值进行填充，而相关系数可以通过0填充，因为每个维度上的值都要减掉均值，整体会有平均化处理，均值为0，所以可以把0赋值给null

注：cos、欧式距离、pearson的公式经过化简后，含义相似，具体可参考各位答主的解读

如何理解皮尔逊相关系数（Pearson Correlation Coefficient）？www.zhihu.com