前言:
下周就要模式识别考试了,临时抱抱佛脚丫子,发现有个题是相似性测度定义公式题。目测百分之百要考,所以进行总结一下,让自己知道咋回事。
(一)欧式距离
最常见的一种距离公式
定义:设X1,X2是两个N维的模式样本向量。X1和X2之间的欧式距离可以表示为:
(二)马氏距离
是对欧式距离的一种修正,解决了欧式距离中各个维度尺度不一致且相关的问题。(相关???)
定义:单个数据样本到均值样本的马氏距离:
数据点X,Y之间的马氏距离:
由于看到这个公式时,期望,方差,协方差,相关系数在我脑子里打转,而我分不清谁是谁了,所以参考了其他博客先预处理一下这些常见知识点。
(1)期望:用来描述随机变量的平均大小(x就像是一门课的得分,p(x)就像是每门课的比重,加权最后得到这个人的平均水平)
离散随机变量期望:
连续随机变量期望:
(2)方差:用来描述随机变量在均值周围的分散程度(就像两个人平均水平差不多,但一个人比较稳定,另一个人发挥时好时坏,波动太大,那么方差就较大)
离散随机变量方差:
连续随机变量方差:
标准差就是方差的算术平方根:
常常进行运算的时候会用到化简公式:
(3)协方差:描述两个变量之间的线性相关性,协方差为正说明两个变量是正相关,为负说明两者是负相关,为0说明线性无关,但是不代表不相关或者相互独立。
公式:
协方差矩阵:描述多维随机变量之间的线性相关性,一般用表示。矩阵的对角线就是每个随机变量的方差
但是因为不同的随机变量的量纲是不同的,所以用协方差只能看出两个变量之间是正相关还是负相关,但是不能够衡量这种相关性谁强谁弱。所以有了相关系数。
(4)相关系数:是一种剔除了两个随机变量之间的量纲影响,标准化后的协方差
定义:
相关系数的取值就在[-1,1]上了。
接下来看马氏距离是怎么修正维度尺度不一致的。
如图一,当用欧氏距离时会发现,A和B距离聚类中心的距离相同时,其实A更容易被认为是离群点,而B应该更大的可能性属于这一类,所以通过欧式距离进行分类,不恰当。而第二幅图利用了马氏距离,其实是建立了一个新的坐标系,并在坐标系上根据方差进行了放缩,就可以达到如图二所示,此时A,B到聚类中心的马氏距离相同,分类也更为准确。
具体的公式推导,最后可以得到马氏距离中间的那个乘上协方差矩阵的逆(相当于根据方差来进行放缩,使尺度一致,这样更好记)。具体的推导,见知乎大佬推导。
知乎上的解释
知乎解释的解读
(三)明氏距离 (我目前不知道应用在哪)
m等于2 的时候,可以看出正好是欧氏距离
m等于1的时候,称为街区距离,就是分量相减的绝对值,如果此时在二维空间里就可以如图所示:
(四)汉明距离 可以用来描述两个二值数组(向量)相同的位数(相似度)
Xi,Xj都是n维的二值向量(取值为1或者-1)
公式:
如果Dh为n,说明完全不同,为0说明完全相似。
看到一个应用是,用来判断两张图片相似程度的时候,使用汉明距离的方法来比较两张图片的指纹。很有意思。
(五)角度相似性函数
就是两个模式向量夹角的余弦用来做距离: