聚类分析
![0-头图](https://img-blog.csdnimg.cn/9a72998b545642b9913a00e774f03463.png#pic_center)
聚类分析的基本思想
- 在
样品
之间定义距离
,在变量
之间定义相似系数
; - 按照相似程度的大小,将样品(变量)逐一归类,关系密切的类聚集到一个小的分类单位;
- 然后逐步扩大,使得关系疏远的聚合到一个大的分类单位;
- 直至所有的样品/变量都分类完毕,形成一个表示亲疏关系的
谱系图
,依次按照某些要求对样品进行分类。
样品
多元数据具有n个样本 x 1 . . x n x_1 ..x_n x1..xn,样本就是样品。
变量
每个样品具有p个不同指标。
聚类和判别分析的联系和区别
两种方法都是研究分类的。聚类前不知总体类别,判别分析是知道的。
样品间的相似性度量-距离
n个样品的多元观测数据 x i = ( x i 1 , . . . , x i p ) T , i = 1 , 2 , 3... , n . x_i=(x_i1, ..., x_ip)^T, i=1, 2, 3..., n. xi=(xi1,...,xip)T,i=1,2,3...,n.
x i 与 x j x_i与x_j xi与xj之间的距离定义
-
欧式距离
d ( x i , x j ) = ∑ k = 1 p ( x i k − x j k ) 2 d(x_i, x_j)=\sqrt{\sum_{k=1}^{p}(x_{ik}-x_{jk})^2} d(xi,xj)=k=1∑p(xik−xjk)2 -
绝对距离
d ( x i , x j ) = ∑ k = 1 p ∣ x i k − x j k ∣ d(x_i, x_j)=\sum_{k=1}^{p}{|x_{ik}-x_{jk}|} d(xi,xj)=k=1∑p∣xik−xjk∣
- Minkowski距离
d ( x i , x j ) = [ ∑ k = 1 p ( x i k − x j k ) m ] 1 m d(x_i, x_j)=[{\sum_{k=1}^{p}(x_{ik}-x_{jk})^m}]^\frac{1}{m} d(xi,xj)=[k=1∑p(xik−xjk)m]m1
- 切比雪夫距离
d ( x i , x j ) = m a x 1 ≤ k ≤ p ∣ x i k − x j k ∣ d(x_i, x_j)=max_{1\le k\le p}{|x_{ik}-x_{jk}|} d(xi,xj)=max1≤k≤p∣xik−xjk∣
- 🐎氏距离
d ( x i , x j ) = [ ( x i − x j ) T Σ − 1 ( x i − x j ) ] 1 2 d(x_i, x_j)=[(x_i-x_j)^T\Sigma^{-1}(x_i-x_j)]^\frac{1}{2} d(xi,xj)=[(xi−xj)TΣ−1(xi−xj)]21
其中, Σ = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( x i − x ˉ ) T \Sigma=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(x_i-\bar{x})^T Σ=n−11∑i=1n(xi−xˉ)(xi−xˉ)T
变量间的相似性度量-相似度
-
相似系数
n个样本的第α个指标 x α = ( x 1 α , . . . , x n α ) x_\alpha=(x_{1\alpha}, ..., x_{n\alpha}) xα=(x1α,...,xnα)和第β个指标 x β = ( x 1 β , . . . , x n β ) x_\beta=(x_{1\beta}, ..., x_{n\beta}) xβ=(x1β,...,xnβ)的相关系数如下:
r α β = ∑ i = 1 n ( x i α − x ˉ α ) ( x i β − x ˉ β ) ∑ i = 1 n ( x i α − x ˉ α ) 2 ∑ i = 1 n ( x i β − x ˉ β ) 2 r_{\alpha \beta}=\frac{\sum_{i=1}^{n} (x_{i\alpha }-\bar{x}_\alpha)(x_{i\beta }-\bar{x}_\beta)}{\sqrt{\sum_{i=1}^{n} (x_{i\alpha }-\bar{x}_\alpha)^2\sum_{i=1}^{n} (x_{i\beta}-\bar{x}_\beta)^2}} rαβ=∑i=1n(xiα−xˉα)2∑i=1n(xiβ−xˉβ)2∑i=1n(xiα−xˉα)(xiβ−xˉβ) -
夹角余弦
解析集合两个向量余弦在p元数据上的推广:
c α β = ∑ x i α x i β ∑ x α 2 ∑ x β 2 c_{\alpha\beta}=\frac{\sum{x_{i\alpha}x_{i\beta}}}{\sum{x_{\alpha}^2}\sum{x_{\beta}^2}} cαβ=∑xα2∑xβ2∑xiαxiβ