聚类的简单了解
分类方法是属于有监督学习,聚类是属于无监督学习。K均值聚类是最基础和最常用的聚类算法。它的基本思想是,通过迭代方法寻找K个簇的一种划分方案。通过最小化损失函数来获取最有的划分方案,损失函数可以定义为各个样本距离所属簇中心点的误差平方和。使用的距离通常为欧式距离。
聚类分为硬聚类和软聚类:
硬聚类:一个样本只能属于一个类
软聚类:一个样本可以属于多个类
类是样本的子集,比如有如下基本定义:
描述类的特征的指标有中心、直径、散布矩阵、协方差矩阵
聚类的核心概念
聚类的核心是:相似度或距离
距离
a. 欧式距离
d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ 2 ) 1 2 d_{ij} = (\sum_{k=1}^m|x_{ki} - x_{kj}|^2)^{\frac 1 2} dij=(k=1∑m∣xki−xkj∣2)21
缺陷:
- 受量纲的影响明显
- 未考虑各变量方差的不同
- 容易受到异常值的影响
- 没有考虑指标之间的相关性
作为改进,可以考虑将数据进行标准化或归一化后在计算距离
b. 闵可夫斯基距离
d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ p ) 1 p p ≥ 1 d_{ij} = (\sum_{k=1}^m|x_{ki} - x_{kj}|^p)^{\frac 1 p} \\ p \ge 1 dij=(k=1∑m∣xki−xkj∣p)p1p≥1
p = 2 时,闵式距离就为欧式距离
p = 1 时,称为曼哈顿距离
p = 无穷时,称为切比雪夫距离, d i j = m a x k ∣ x k i − x k j ∣ d_{ij} = max_k|x_{ki} - x_{kj}| dij=maxk∣xki−xkj∣
缺点:
- 闵式距离与各指标的量纲有关
- 闵式距离的定义没有考虑各个变量之间的相关性与重要性
实际上,闵式距离与欧式距离一样,是把各个变量都同等看待,将两个样本在各个变量上的离差进行了综合。
以上方法在实际应用中有较多问题,由此引出了以下的几种方法,弥补了欧式或闵式距离的缺点。
c. 兰式距离
d i j = 1 m ∑ k = 1 m ∣ x k i − x k j ∣ x k i + x k j d_{ij} = \frac {1} {m} \sum_{k=1}^m \frac {|x_{ki} - x_{kj}|} {x_{ki} + x_{kj}} dij=m1k=1∑mxki+xkj∣xki−xkj∣
缺点:
- 没有考虑指标之间的相关性
- 要求变量观测值必须大于0, 以保证距离总是正值
优点:
- 对大的奇异值不敏感特别使用于高度偏倚的数据
- 考虑了变量的个数
d. 马哈拉诺比斯距离
d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_{ij} = [(x_i - x_j)^TS^{-1}(x_i-x_j)]^{\frac 1 2} dij=[(xi−xj)TS−1(xi−xj)]21
S是样本的协方差矩阵
优点:
- 考虑各个分量之间的相关性
- 与各个分量的尺度无关
e. 斜交空间距离
d i j = [ 1 p 2 ∑ h = 1 m ∑ k = 1 m ( x i h − x j h ) ( x i k − x j k ) γ h k ] 1 2 d_{ij} = [\frac 1 {p^2} \sum_{h=1}^m \sum_{k=1}^m (x_{ih} - x_{jh})(x_{ik}-x_{jk}) \gamma_{hk}]^{\frac 1 2} dij=[p21h=1∑mk=1∑m(xih−xjh)(xik−xjk)γhk]21
γ h k : \gamma_{hk}: γhk: 两变量标准化处理后两者之间的相关系数,当各变量不相关时,斜交变量退化为欧式距离。
相似度
a 相关系数
r i j = ∑ k = 1 m ( x k i − x i ) ( x k f − x f ) [ ∑ k = 1 m ( x k i − x i ) 2 ( x k j − x j ) 2 ] 1 2 r_{ij} = \frac {\sum_{k=1}^m(x_{ki} - x_i)(x_{kf} - x_f)} {[\sum_{k=1}^m(x_{ki} - x_i)^2(x_{kj} - x_j)^2]^{\frac 1 2}} rij=[∑k=1m(xki−xi)2(xkj−xj)2]21∑k=1m(xki−xi)(xkf−xf)
∣ r ∣ < = 1 |r| <= 1 ∣r∣<=1,相关系数的绝对值越接近于1, 表示样本越相似;越接近于0,表示样本越不相似,但注意的是这里的不相似是指没有线性相似关系,但可能有非线性相关关系。
b. 夹角余弦
s i j = ∑ k = 1 m x k i x k j [ ∑ k = 1 m x k