三种样本间的距离测量公式:
x1,x2代表要计算的两个样本,X代表所有样本,u代表样本均值
1,欧式距离
D = (x1 - x2)' * (x1 - x2)
2,马氏距离
步骤:
(1)计算特征的协方差矩阵
sigma = (X - u) * (X - u)’
(2)协方差求逆
inv(sigma)
(3)计算距离
D = (x1 - x2)' * inv(sigma) * (x1 - x2)
使用条件:
总体样本维数大于特征维数,并且总体样本不共线,否则协方差的逆矩阵不存在
优点:
(1)不受量纲影响
(2)排除变量相关性之间的干扰
缺点:
(1)夸大了变化微小的变量的影响
(2)马氏距离不稳定,它的计算是建立在总体样本上的,如果总体样本变化,两个样本的马氏距离也会发生变化,它的不稳定 来源于协方差矩阵
3,夹角余弦距离
D = cos(theta) = ( x1' * x2 ) / ( ||x1|| * ||x2|| )
样本与类之间的距离
1,计算样本到类各个样本距离的平均值
2,计算样本到类中心的距离
类内距离
集合内一固定点xi到其他点xj的距离平均值
集合内所有点的平均距离
类间距离:
1,最短距离
2,最长距离
3,中心距离
4,求和平均距离