k-均值聚类算法的性能会受到所选距离计算方法的影响;所以,今天总结了一下有关距离计算的一些总结。如有错误,望大家指正。
1、欧式距离是大家最熟悉的了。比如两点之间的距离的计算。
可以写成向量的运算形式,工程中用的最多。
2、曼哈顿距离(Manhattan Distance)
就是计算城市街区距离(一个十字路口到下一个十字口)
3.切比雪夫距离(Chebyshev Distance)
这个公式的另一种等价形式是:
4、闵可夫斯基距离(Minkowski Distance)
两个n维变量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的闵可夫斯基距离定义为:
其中p是一个变参数。
当p=1时,就是曼哈顿距离
当p=2时,就是欧氏距离
当p→∞时,就是切比雪夫距离
根据变参数的不同,闵氏距离可以表示一类的距离。
5、标准化欧式距离(Standardized Euclidean distance)
定义:标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路:既然数据各维分量的分布不一样,好吧!那我先将各个分量都“标准化”到均值、方差相等吧。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,那么X的“标准化变量”表示为:
(标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差)
(也可以叫做加权欧式距离)
6、马氏距离(Mahalanobis Distance)
有M个样本向量x1~xm ,协方差矩阵记为S,均值记为向量 μ,则其中样本向量想到u的马氏距离表示为:
而其中向量xi 和xj 之间的马氏距离定义为:
若协方差矩阵是单位矩阵(各个样本向量之间独立同分布)则公式就成了:
(也就是欧式距离了)
7 夹角余弦距离:
这个距离就不用多说了,直接来个公式:
8、汉明距离(Hamming Distance)
在信息编码中用的多,一般我们用的不多。就是计算字符串S1和S2之间,一个变为另外衣蛾需要作最小的替换次数,
例如字符串“1111”与“1001”之间的汉明距离为2。
9、杰卡德相似系数(Jaccard similarity coefficient)
(1) 杰卡德相似系数
两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示
杰卡德相似系数是衡量两个集合的相似度的一种指标。
(2)杰卡德距离
杰卡德距离用两个集合中不同元素所有元素的比例来衡量两个集合的区分度。
10、相关系数与相关距离(Correlation distance)
(1) 相关系数的定义
(2)相关距离的定义
11、信息熵(Information Entropy)
信息熵并不属于一种相似性的度量。