聚类分析简述

聚类分析


0-头图

聚类分析的基本思想

  1. 样品之间定义距离,在变量之间定义相似系数
  2. 按照相似程度的大小,将样品(变量)逐一归类,关系密切的类聚集到一个小的分类单位;
  3. 然后逐步扩大,使得关系疏远的聚合到一个大的分类单位;
  4. 直至所有的样品/变量都分类完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品进行分类。

样品

多元数据具有n个样本 x 1 . . x n x_1 ..x_n x1..xn,样本就是样品。

变量

每个样品具有p个不同指标。

聚类和判别分析的联系和区别

两种方法都是研究分类的。聚类前不知总体类别,判别分析是知道的。

样品间的相似性度量-距离

n个样品的多元观测数据 x i = ( x i 1 , . . . , x i p ) T , i = 1 , 2 , 3... , n . x_i=(x_i1, ..., x_ip)^T, i=1, 2, 3..., n. xi=(xi1,...,xip)T,i=1,2,3...,n.

x i 与 x j x_i与x_j xixj之间的距离定义

  1. 欧式距离
    d ( x i , x j ) = ∑ k = 1 p ( x i k − x j k ) 2 d(x_i, x_j)=\sqrt{\sum_{k=1}^{p}(x_{ik}-x_{jk})^2} d(xi,xj)=k=1p(xikxjk)2

  2. 绝对距离

d ( x i , x j ) = ∑ k = 1 p ∣ x i k − x j k ∣ d(x_i, x_j)=\sum_{k=1}^{p}{|x_{ik}-x_{jk}|} d(xi,xj)=k=1pxikxjk

  1. Minkowski距离

d ( x i , x j ) = [ ∑ k = 1 p ( x i k − x j k ) m ] 1 m d(x_i, x_j)=[{\sum_{k=1}^{p}(x_{ik}-x_{jk})^m}]^\frac{1}{m} d(xi,xj)=[k=1p(xikxjk)m]m1

  1. 切比雪夫距离

d ( x i , x j ) = m a x 1 ≤ k ≤ p ∣ x i k − x j k ∣ d(x_i, x_j)=max_{1\le k\le p}{|x_{ik}-x_{jk}|} d(xi,xj)=max1kpxikxjk

  1. 🐎氏距离

d ( x i , x j ) = [ ( x i − x j ) T Σ − 1 ( x i − x j ) ] 1 2 d(x_i, x_j)=[(x_i-x_j)^T\Sigma^{-1}(x_i-x_j)]^\frac{1}{2} d(xi,xj)=[(xixj)TΣ1(xixj)]21

​ 其中, Σ = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( x i − x ˉ ) T \Sigma=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(x_i-\bar{x})^T Σ=n11i=1n(xixˉ)(xixˉ)T

变量间的相似性度量-相似度

  1. 相似系数

    n个样本的第α个指标 x α = ( x 1 α , . . . , x n α ) x_\alpha=(x_{1\alpha}, ..., x_{n\alpha}) xα=(x1α,...,xnα)和第β个指标 x β = ( x 1 β , . . . , x n β ) x_\beta=(x_{1\beta}, ..., x_{n\beta}) xβ=(x1β,...,xnβ)的相关系数如下:
    r α β = ∑ i = 1 n ( x i α − x ˉ α ) ( x i β − x ˉ β ) ∑ i = 1 n ( x i α − x ˉ α ) 2 ∑ i = 1 n ( x i β − x ˉ β ) 2 r_{\alpha \beta}=\frac{\sum_{i=1}^{n} (x_{i\alpha }-\bar{x}_\alpha)(x_{i\beta }-\bar{x}_\beta)}{\sqrt{\sum_{i=1}^{n} (x_{i\alpha }-\bar{x}_\alpha)^2\sum_{i=1}^{n} (x_{i\beta}-\bar{x}_\beta)^2}} rαβ=i=1n(xiαxˉα)2i=1n(xiβxˉβ)2 i=1n(xiαxˉα)(xiβxˉβ)

  2. 夹角余弦

    解析集合两个向量余弦在p元数据上的推广:
    c α β = ∑ x i α x i β ∑ x α 2 ∑ x β 2 c_{\alpha\beta}=\frac{\sum{x_{i\alpha}x_{i\beta}}}{\sum{x_{\alpha}^2}\sum{x_{\beta}^2}} cαβ=xα2xβ2xiαxiβ

谱系聚类

快速聚类

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值