统计学习方法---聚类分析

聚类的简单了解

分类方法是属于有监督学习,聚类是属于无监督学习。K均值聚类是最基础和最常用的聚类算法。它的基本思想是,通过迭代方法寻找K个簇的一种划分方案。通过最小化损失函数来获取最有的划分方案,损失函数可以定义为各个样本距离所属簇中心点的误差平方和。使用的距离通常为欧式距离。

聚类分为硬聚类软聚类

硬聚类:一个样本只能属于一个类
软聚类:一个样本可以属于多个类

类是样本的子集,比如有如下基本定义:
在这里插入图片描述
描述类的特征的指标有中心、直径、散布矩阵、协方差矩阵
在这里插入图片描述
在这里插入图片描述

聚类的核心概念

聚类的核心是:相似度或距离

距离

a. 欧式距离
d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ 2 ) 1 2 d_{ij} = (\sum_{k=1}^m|x_{ki} - x_{kj}|^2)^{\frac 1 2} dij=(k=1mxkixkj2)21

缺陷:

  • 受量纲的影响明显
  • 未考虑各变量方差的不同
  • 容易受到异常值的影响
  • 没有考虑指标之间的相关性

作为改进,可以考虑将数据进行标准化或归一化后在计算距离

b. 闵可夫斯基距离
d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ p ) 1 p p ≥ 1 d_{ij} = (\sum_{k=1}^m|x_{ki} - x_{kj}|^p)^{\frac 1 p} \\ p \ge 1 dij=(k=1mxkixkjp)p1p1
p = 2 时,闵式距离就为欧式距离
p = 1 时,称为曼哈顿距离
p = 无穷时,称为切比雪夫距离, d i j = m a x k ∣ x k i − x k j ∣ d_{ij} = max_k|x_{ki} - x_{kj}| dij=maxkxkixkj

缺点:

  • 闵式距离与各指标的量纲有关
  • 闵式距离的定义没有考虑各个变量之间的相关性与重要性

实际上,闵式距离与欧式距离一样,是把各个变量都同等看待,将两个样本在各个变量上的离差进行了综合。

以上方法在实际应用中有较多问题,由此引出了以下的几种方法,弥补了欧式或闵式距离的缺点。

c. 兰式距离
d i j = 1 m ∑ k = 1 m ∣ x k i − x k j ∣ x k i + x k j d_{ij} = \frac {1} {m} \sum_{k=1}^m \frac {|x_{ki} - x_{kj}|} {x_{ki} + x_{kj}} dij=m1k=1mxki+xkjxkixkj

缺点:

  • 没有考虑指标之间的相关性
  • 要求变量观测值必须大于0, 以保证距离总是正值

优点:

  • 对大的奇异值不敏感特别使用于高度偏倚的数据
  • 考虑了变量的个数

d. 马哈拉诺比斯距离
d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_{ij} = [(x_i - x_j)^TS^{-1}(x_i-x_j)]^{\frac 1 2} dij=[(xixj)TS1(xixj)]21
S是样本的协方差矩阵

优点:

  • 考虑各个分量之间的相关性
  • 与各个分量的尺度无关

e. 斜交空间距离
d i j = [ 1 p 2 ∑ h = 1 m ∑ k = 1 m ( x i h − x j h ) ( x i k − x j k ) γ h k ] 1 2 d_{ij} = [\frac 1 {p^2} \sum_{h=1}^m \sum_{k=1}^m (x_{ih} - x_{jh})(x_{ik}-x_{jk}) \gamma_{hk}]^{\frac 1 2} dij=[p21h=1mk=1m(xihxjh)(xikxjk)γhk]21
γ h k : \gamma_{hk}: γhk 两变量标准化处理后两者之间的相关系数,当各变量不相关时,斜交变量退化为欧式距离。

相似度

a 相关系数
r i j = ∑ k = 1 m ( x k i − x i ) ( x k f − x f ) [ ∑ k = 1 m ( x k i − x i ) 2 ( x k j − x j ) 2 ] 1 2 r_{ij} = \frac {\sum_{k=1}^m(x_{ki} - x_i)(x_{kf} - x_f)} {[\sum_{k=1}^m(x_{ki} - x_i)^2(x_{kj} - x_j)^2]^{\frac 1 2}} rij=[k=1m(xkixi)2(xkjxj)2]21k=1m(xkixi)(xkfxf)

∣ r ∣ < = 1 |r| <= 1 r<=1,相关系数的绝对值越接近于1, 表示样本越相似;越接近于0,表示样本越不相似,但注意的是这里的不相似是指没有线性相似关系,但可能有非线性相关关系。

b. 夹角余弦
s i j = ∑ k = 1 m x k i x k j [ ∑ k = 1 m x k

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值