距离度量----马氏距离

最新推荐文章于 2022-05-11 21:40:41 发布

迷叶沙

最新推荐文章于 2022-05-11 21:40:41 发布

阅读量1.4k

点赞数

分类专栏：补充内容文章标签：算法

本文链接：https://blog.csdn.net/qq_40725653/article/details/117621557

版权

补充内容专栏收录该内容

5 篇文章 0 订阅

订阅专栏

马氏距离是一种统计学上的距离度量，由马哈拉诺比斯提出，考虑了数据的协方差和分布。它在处理不同量纲和相关性的数据时优于欧氏距离。例如，一给定点在欧氏距离下更接近B分布，但在马氏距离下却更倾向于A分布，因为马氏距离考虑了数据的分布情况。马氏距离的特性包括量纲无关性、与样本分布相关以及要求样本数大于样本维数。在实际应用中，确保样本数量足够是计算马氏距离的前提。

摘要由CSDN通过智能技术生成

马氏距离

由来：
	马氏距离是由印度统计学家马哈拉诺比斯提出的，表示数据的协方差距离。是一种基于样本分布式的距离，能够很好地展现样本之间的相似度。

实例

两个近乎正态分布的样本图

由上图所示，存两个准正态分布区间，均值分别为a,b。现在我们以欧氏距离度量准则考虑：
A点明显更加趋近于b区间，因此A点应该被划分为b类。但目前常用的欧氏距离具有不少的局限性。如：缺少对不同量纲的考虑，没有考虑数据之间的相关性(期望，方差...)
但如今我们采用马氏距离角度来考虑数据的分布情况，A点属于a类的概率明显远大于属于b类的概率，换句话说就是属于b类是小概率事件。

马氏距离的定义

假设数据G是一个n维样本，均值为( $u_1$ , $u_2$ … $u_n$ ),协方差为 $\sum$ = $θ_{ij}$ ,那么样本( $X_1,X_2,...,X_n$ )的马氏距离为：

$D_{12}(X,G)$ = (X-U) $\sum^{-1}$ (X-U)
下面举一个简单的例子：

A,B两个分部，均值,方差分别为(4,4),(1,0.125)一样本为2

$d_1^2$ = $2-4)^2$ /4 = 4= $2^2$
$d_2^2$ = $2-1)^2$ /0.125 = 8 = $\sqrt 8^2$

欧式距离来看，该点明显靠近B分布，但是考虑数据的分布相关性，可以发现在马氏距离中该点更加倾向于A分布

马氏距离一些性质

1：与量纲无关，可以排除变量之间的干扰
2：马氏距离根据其总体样本的分布有关，也就是说同一个样本放在不同的样本分布区间会有不同的距离结果
3：要求总体样本数大于样本维数！！！

	下面对性质3简单进行证明

从马氏距离公式中我们可以知道在进行高维距离计算中需要运用到协方差矩阵 $\sum^{-1}$ 的逆矩阵，因此性质3就是为了满足这个条件而产生的必然要求。

假设数据矩阵X(m,n),m为样本总数，n为样本的维度，在不清楚具体样本维度时候，我们可以采取使用采用均值代替样本均值。

此时Cov(X)= $Z^\mathrm{T}Z$
在这里插入图片描述
rank( R)=m-1(这个学过矩阵论的应该清楚。。。)
rank(Cov( X))=rank( $Z^\mathrm{T}Z$ )
=rank( Z)=rank( RX)=min(rank( R),rank( X))
=min(m-1,(m,n))=min(m-1,n)

所以要保证其可逆，要保证该协方差矩阵满秩，则m-1<n(矩阵性质),得证。

迷叶沙

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录