距离度量----马氏距离

马氏距离

由来:
	马氏距离是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。是一种基于样本分布式的距离,能够很好地展现样本之间的相似度。

实例

两个近乎正态分布的样本图

由上图所示,存两个准正态分布区间,均值分别为a,b。现在我们以欧氏距离度量准则考虑:
A点明显更加趋近于b区间,因此A点应该被划分为b类。但目前常用的欧氏距离具有不少的局限性。如:缺少对不同量纲的考虑,没有考虑数据之间的相关性(期望,方差...)
但如今我们采用马氏距离角度来考虑数据的分布情况,A点属于a类的概率明显远大于属于b类的概率,换句话说就是属于b类是小概率事件。

马氏距离的定义

假设数据G是一个n维样本,均值为( u 1 u_1 u1, u 2 u_2 u2 u n u_n un),协方差为 ∑ \sum = θ i j θ_{ij} θij,那么样本( X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn)的马氏距离为:

D 12 ( X , G ) D_{12}(X,G) D12(X,G) = (X-U) ∑ − 1 \sum^{-1} 1(X-U)
下面举一个简单的例子:

A,B两个分部,均值,方差分别为(4,4),(1,0.125)一样本为2

d 1 2 d_1^2 d12= ( 2 − 4 ) 2 (2-4)^2 (24)2/4 = 4= 2 2 2^2 22
d 2 2 d_2^2 d22= ( 2 − 1 ) 2 (2-1)^2 (21)2/0.125 = 8 = 8 2 \sqrt 8^2 8 2

欧式距离来看,该点明显靠近B分布,但是考虑数据的分布相关性,可以发现在马氏距离中该点更加倾向于A分布

马氏距离一些性质

1:与量纲无关,可以排除变量之间的干扰
2:马氏距离根据其总体样本的分布有关,也就是说同一个样本放在不同的样本分布区间会有不同的距离结果
3:要求总体样本数大于样本维数!!!

	下面对性质3简单进行证明

从马氏距离公式中我们可以知道在进行高维距离计算中需要运用到协方差矩阵 ∑ − 1 \sum^{-1} 1的逆矩阵,因此性质3就是为了满足这个条件而产生的必然要求。
协方差矩阵

假设数据矩阵X(m,n),m为样本总数,n为样本的维度,在不清楚具体样本维度时候,我们可以采取使用采用均值代替样本均值。

此时Cov(X)= Z T Z Z^\mathrm{T}Z ZTZ
在这里插入图片描述
rank( R)=m-1(这个学过矩阵论的应该清楚。。。)
rank(Cov( X))=rank( Z T Z Z^\mathrm{T}Z ZTZ)
=rank( Z)=rank( RX)=min(rank( R),rank( X))
=min(m-1,(m,n))=min(m-1,n)

所以要保证其可逆,要保证该协方差矩阵满秩,则m-1<n(矩阵性质),得证。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值