数据科学之机器学习10: 聚类分析1_聚类分析马氏距离-CSDN博客

“文章原创，转载请注明出处”

上一篇介绍了聚类分析中的KMeans算法，这一节就来具体地说说聚类分析。聚类分析，cluster analysis，是一种研究“物以类聚”现代统计学分析方法，其目的是要把分类对象按照一定的规则分成若干个类。这些类别并非事先给定的，而是根据数据的特征确定的。

在上一篇中，我们已经介绍过，聚类其实就是将相似度高的样品啊属性啊合并成一个类别。但是，上一篇我们仅仅给出了一种也是最简单的一种相似性的度量方式——欧式距离。这里我们详细看看相似性有哪些度量方式：

除了使用有序尺度变量（将属性划分为一级、二级等等的有次序关系的量来表示）和名义尺度变量（使用既没有等级关系，又不存在数量关系的量来表示。比如男女）之外，一般采用的测量尺度的方式就是间隔尺度变量。

间隔尺度变量即是使用连续的量来表示测量尺度，一般都是连续型的，比如欧式距离、重量等等。一般来讲，在应对Q型聚类时会使用距离去度量；而对R型聚类来说，则会使用相似系数这种方式去度量。下面来分别看一看：

上一篇中使用的欧氏距离即是这里的一种，在介绍各种不同的距离定义之前，首先看看距离的定义需要满足哪些条件：

下面就来看看常用的距离定义，首先看看最常用的Minkowski距离：

d i j (q) = [\sum k = 1 p ∣ x i k - x j k ∣ q] 1 / q

观察这个距离可以看到，当 q=2 时，上面定义的距离就是常用的欧氏距离。另外：

Minkowski距离存在一个问题，就是当变量的单位不同或者测量值范围相差很大时，直接使用Minkowski距离效果不佳。这个时候，应该先对数据进行标准化（就是减去均值除上标准差）之后再计算距离(这个后面还会说到)。

当 xji>0 时，定义第i个样品到第j个样品的距离为：

d i j = \sum k = 1 p ∣ x i k - x j k ∣ x i k + x j k

从公式就可以看出来，这个距离与变量之间的单位没有什么关系；而且其对异常值也不敏感，因而适用于一些高度偏斜的数据。

上面的两种距离都没有考虑变量之间的相关性问题，马氏距离就可以考虑到这个问题。但是由于马氏距离定义的问题，在聚类分析中使用马氏距离并不合适。但是这里也还是给出马氏距离的定义：

d i j = (x i - x j) T S - 1 (x i - x j) - - - - - - - - - - - - - - - - - - \sqrt

其中 xi=(xi1,…,xip)T ， xj=(xj1,…,xjp)T ， S 为样本协方差阵。

注：为什么说马氏距离不适用与聚类分析呢？

聚类分析是无监督算法中的一种，无监督算法是什么？无监督算法是没有先验信息的，所有的数据拿过来是没有什么目标信息啊什么的。没有不同类之间的先验信息，那么协方差阵 S 就无法计算。因而，在实际聚类分析中，马氏距离并不适用。

d i j = [1 p 2 \sum k = 1 p \sum l = 1 p (x i k - x j k) (x i l - x j l) r k l] 1 / 2

其中 rkl 是变量 xk 与变量 xl 的相关系数。学过高等代数的应该可以很容易看明白这个定义。此外，当变量之间互不相关的时候，这里的 dij=[dij(2)/p]Minkowski ，也就是退化到了欧氏距离（相差一个常数倍）。

对变量进行聚类时，通常使用相似系数来考量其间的相似度。那么相似系数的定义有需要满足哪些条件呢？

下面看看常用的两种相似系数：

变量 xi 和 xj 的夹角余弦的定义为：

c i j = \sum n k = 1 x k i x k j [ ( \sum n k = 1 x 2 k i ) ( \sum n k = 1 x 2 k j ) ] 1 / 2

学过解析几何应该很容易看出这个定义的含义所在，其实 cij=cosθij 。

c i j = \sum n k = 1 ( x k i - x i ¯ ¯ ¯ ) ( x k j - x j ¯ ¯ ¯ ) { [ \sum n k = 1 ( x k i - x i ¯ ¯ ¯ ) 2 ] [ \sum n k = 1 ( x k j - x j ¯ ¯ ¯ ) 2 ] } 1 / 2

这里的相关系数其实就是统计里面通常所说的相关系数。其实，如果变量都是标准化了的，那么夹角余弦就是相关系数，看出来了吗？

到这边，就把统计中常用的用于度量相似性的定义讲了一些。这些定义，大都有其自身的数学背景。有些来自于几何学，有些来自于线性空间理论。对于使用者来说，搞明白什么时候选择什么样的度量方式更加重要！下一篇，我们讲一讲聚类分析中的一个常用方法：系统聚类法。