相似度和距离度量在机器学习中非常重要。因此这里做一点总结。
欧式距离
最简单的,从小都会,是高维空间中两个点的直线距离(以二维空间为例就很好理解)。
闵可夫斯基距离
曼哈顿距离就是模的和,比如在二维空间,就是两点的差的绝对值之和。
马氏距离
这里开始复杂一点了,扯到了概率分布,即开始不再只是简单考虑这两个向量本身,而是把他们都看作是来自某一个概率分布中的随机样本,即开始探究他们背后的大背景,大的来历。
把一个确定值(无论维度如何)看做某个随机分布的样本是一种很常见的数学思想,要习惯。在基于概率的机器学习模型中,KL散度中都有出现。
卡方chi-square
fisher score
余弦相似度
其实也有人称之为余弦距离啦。
互信息
这个称之为相似度更合适一些。
pearson相关系数
Jaccard相关系数
KL散度
JS距离
DTW距离
动态时间规整,Dynamic Time Warping,由于最早用在衡量两个语音信号序列的相似性,所以它可以计算两个长度不一致的时间序列的距离,所以叫做时间规整,而“动态”是因为计算这个距离的算法是动态规划算法。
参考文章:https://blog.csdn.net/gdp12315_gu/article/details/55667483