一、相似度方法
二、方法间的联系
2.1 欧式距离
欧式距离,以空间为基准的两点之间最短距离。
说的通俗点,两点之间直线最短的概念。
例:二维空间中
2.2 杰卡德相似系数
两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。卡德相似系数是衡量两个集合的相似度一种指标。
2.3 余弦相似度
几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。
2.4 Pearson相似系数(与余弦相似度比较)
2.5 相对熵
相对熵是量化两个概率分布的差异(相似度,距离),K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息。
2.6 Hellinger距离
在概率论和统计理论中,Hellinger距离被用来度量两个概率分布的相似度。它是f散度的一种(f散度——度量两个概率分布相似度的指标)
参考:http://blog.sina.com.cn/s/blog_85f1ffb70101e65d.html