1、欧式距离(欧几里得距离)
欧式距离是最易理解的距离定义,即各坐标点的坐标之差的平方和相加,然后开根号。
二维平面上点 与点 之间的距离公式是:
n维空间上点 和点 之间的距离公式是:
2、曼哈顿距离
曼哈顿距离是各坐标点的坐标差值相加。
二维平面上点 与点 之间的距离公式是:
n维空间上点 和点 之间的距离公式是:
3、切比雪夫距离
切比雪夫距离是各坐标的坐标差值中的最大值。
二维平面上点 与点 之间的距离公式是:
n维空间上点 和点 之间的距离公式是:
4、闵可夫斯基距离
闵氏距离是多种距离的概括性描述。
两个n维的点 与 之间的闵式距离可以定义为:
当p 1的时候,上述公式即为曼哈顿距离;
当p 2的时候,上述公式即为欧式距离;
当的 时候,上述公式即为切比雪夫距离。
5、余弦相似度
余弦相似度用于衡量两个向量之间的相似程度,衡量的标准是两向量之间夹角的余弦值。已知向量 与向量 的内积表示为:
则可以得到余弦相似度为:
6、马氏距离
马氏距离表示的是数据的协方差距离,常用于测量未知样本集与已知样本集的相似性。它与欧氏距离的不同之处在于它考虑了数据集的相关性并且是尺度不变的。对于均值为 ,协方差矩阵为S的多变量矢量,其马氏距离为:
马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为S的随机变量 与 的差异程度:
如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离;如果协方差矩阵为对角阵,其也可称为正规化的马氏距离:
7、汉明距离
汉明距离是使用在数据传输差错控制编码里面的,如111000与111001的汉明距离是1,因为它有一位数不一样。