1. 几种相似度
1.1 Jaccard系数
杰卡德系数(Jaccard index) , 又称为Jaccard相似系数(Jaccard similarity coefficient),用于比较有限样本集之间的相似性与差异性。
1.2 余弦相似度
余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。
对于二维空间,根据向量点积公式,显然可以得知:
设向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn) :
2. 相似度与距离
2.1 杰卡德距离和余弦距离的对比
杰卡德距离Jaccard distance(‘jaccard’)
Jaccard距离常用来处理仅包含非对称的二元(0-1)属性的对象。很显然,Jaccard距离不关心0-0匹配[1]。
夹角余弦距离Cosine