机器学习——聚类算法

最新推荐文章于 2024-09-12 14:28:40 发布

bulingg

最新推荐文章于 2024-09-12 14:28:40 发布

阅读量392

点赞数

分类专栏：机器学习文章标签：机器学习算法聚类

本文链接：https://blog.csdn.net/bulling/article/details/132015290

版权

机器学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

文章介绍了聚类的基本概念，包括相似度或距离的计算方法如欧氏距离、马氏距离等，以及类或簇的定义。接着，讲解了层次聚类的两种类型——分拆式和聚合式，并聚焦于聚合聚类算法的步骤。最后，详细阐述了K均值聚类的策略、算法流程和特点，包括损失函数和K值的选择问题。

摘要由CSDN通过智能技术生成

一，聚类的基本概念

聚类是一种无监督算法，即从无标签数据中学习模型。针对对于给定的样本，依据其特征的相似度或距离，将其归并为若干个“类”或“簇”，使得同一个簇内的样本的相似性尽可能大，不同簇中的样本的相似性尽可能小

聚类可分为

硬聚类：一个样本只能属于一个类： $z_{i}=g(x_{i})$
软聚类：一个样本可属于多个类： $P (Y ∣ X)$

1.1 相似度或距离

对于给定样本集合 $X$ ， $X$ 是 $m$ 维向量空间 $R^{m}$ 中点的集合，其中 $x_{i},x_{j}\in X,x_{i}=(x_{1i},x_{2i},\cdots,x_{mi})^{T},x_{j}=(x_{1j},x_{2j},\cdots,x_{mj})^{T}$ ，样本 $x_{i}$ 与 $x_{j}$ 之间常用的距离或相似度有：

闵可夫斯基距离：将样本集合看作空间中点的集合，以空间中的距离表示样本之间的相似度
$d_{ij}=\big(\sum_{k=1}^{m}\vert x_{ki}-x_{kj}\vert^{p}\big)^{1/p}$
1. 当 $p = 1$ 时，为曼哈顿距离（也成为棋盘距离）：
  $d_{ij}=\sum_{k=1}^{m}\vert x_{ki}-x_{kj}\vert$
2. 当 $p = 2$ 时，为欧氏距离：
  $d_{ij}=\big(\sum_{k=1}^{m}\vert x_{ki}-x_{kj}\vert^{2}\big)^{1/2}$
3. 当 $p=\infty$ 时，为切比雪夫距离
  $d_{ij}=\underset{k}{min}\vert x_{ki}-x_{kj} \vert$

闵可夫斯基距离越大，样本相似度越小；距离越小，相似度越大

马氏距离：考虑样本各个特征之间的相关性并与各个分量的尺度无关
$d_{ij} = [(x_{i}-x_{j})^{T}S(x_{i}-x_{j})]^{\frac{1}{2}}$
其中， $S$ 表示样本的协方差矩阵： $S=\frac{1}{N-1}\sum_{i=1}^{N}(x_{i}-\bar{x})(x_{i}-\bar{x})^{T}$ ，并且样本的散度矩阵定义为 $A=\sum_{i=1}^{N}(x_{i}-\bar{x})(x_{i}-\bar{x})^{T},S=\frac{1}{N-1}A$ ，并且 $\bar{x}=\frac{1}{N}\sum_{i=1}^{N}x_{i}$ 表示样本均值。

马氏距离越大，样本相似度越小；距离越小，相似度越大

相关系数：
$r_{ij}=\frac{\sum_{k=1}^{m}(x_{ki}-\bar{x}_{i})(x_{kj}-\bar{x}_{j})}{[\sum_{k=1}^{m}(x_{ki}-\bar{x}_{i})^{2}\sum_{k=1}^{m}(x_{kj}-\bar{x}_{j})^{2}]^{1/2}}$

相关系数越大，样本相似度越大；相关系数越小，相似度越小

夹角余弦
$cos(\theta_{ij})=\frac{\sum_{k=1}^{m}x_{ki}x_{kj}}{(\sum_{k=1}^{m}x_{ki}^{2}\sum_{k=1}^{m}x_{kj}^{2})^{1/2}}$

夹角越大，样本相似度越大；相关系数越小，相似度越小

1.2 类或簇

类和簇有多种定义方式：

设 $T$ 为给定的正数，若对于集合 $G$ 中任意两个样本 $x_{i},x_{j}$ ，有：
$d_{ij}\le T$ 则称 $G$ 为一个类或簇
设 $T$ 为给定的正数，若对于集合 $G$ 中任意一个样本 $x_{i}$ ，一定存在 $G$ 中的另一个样本 $x_{j}$ ，使得： $d_{ij}\le T$ 则称 $G$ 为一个类或簇
设 $T$ 为给定的正数，若对于集合 $G$ 中任意一个样本 $x_{i}$ ， $G$ 中的另一个样本 $x_{j}$ ，满足：
$\frac{1}{n_{G}}\sum_{x_{j}\in G}d_{ij}\le T$ 则称 $G$ 为一个类或簇

类的特征有：

类的均值 $\bar{x}_{G}$ ，也称类中心： $\bar{x}_{G}=\frac{1}{n_{G}}\sum_{i=1}^{n_{G}}x_{i}$
类的直径 $D_{G}$ : $D_{G}=\underset{x_{i},x_{j}\in G}{max}d_{ij}$
类的散度矩阵： $A_{G}=\sum_{i=1}^{n_{G}}(x_{i}-\bar{x}_{G})(x_{i}-\bar{x}_{G})^{T}$
类的协方差矩阵： $S_{G}=\frac{1}{n_{G}-1}A_{G}$

1.3 类与类之间的距离

考虑类 $G_{p}$ 和类 $G_{q}$ 之间的距离 $D (p, q)$

最短距离: $D_{pq}=min(d_{ij}\vert x_{i}\in G_{p},x_{j}\in G_{q})$
最长距离: $D_{pq}=max(d_{ij}\vert x_{i}\in G_{p},x_{j}\in G_{q})$
平均距离: $D_{pq}=\frac{1}{n_{p}n_{q}}\sum_{x_{i}\in G_{p}}\sum_{x_{j}\in G{q}} d_{ij}$
中心距离: $D_{pq}=d_{\bar{x}_{p}\bar{x}_{q}}$

二，层次聚类

假设类别之间存在层次结构，将样本聚到层次化的类中
层次聚类可分为两类：

分拆式（自上而下）：首先将所有样本作为一个类，然后将已有类中距离最远的样本分到两个新的类中，重复以上操作直到满足停止条件为止
聚合式（自下而上）：首先将每个样本视为一个类，然后将距离最近的两个类合并作为一个新类，重复以上操作直至满足停止条件

此处仅讨论聚合聚类，首先需要确定三个要素

距离或相似度：闵可夫斯基距离，马氏距离，相关系数，夹角余弦
合并规则：根据类间距离最小合并，；类间距离包括最短，最长，中心，平均距离
停止条件：类的个数达到阈值（极端情况为一个类）或者类的直径超过阈值

2.1 聚合聚类算法

这里定义欧式距离为样本之间的距离，定义最短距离为类内距离
算法：
输入： $n$ 个样本组成的样本集合以及样本之间距离
输出：对样本集合的一个层次化聚类
（1）计算 $n$ 个样本之间的欧氏距离 $d_{ij}$ ，记作矩阵 $D=[d_{ij}]_{n\times n}$
（2）构造 $n$ 个类，每个样本为一个类
（3）合并类间最短距离最小的两个类，并将其作为一个新类
（4）计算新类与当前各类的距离。若类的个数为1，中值计算，否则回到步骤（3）

三，K均值聚类

基于样本集合划分的聚类算法，每个样本只属于一个类，属于硬聚类
基本思想：首先选取 $k$ 个类的中心，将每个样本分到与其最近的中心的类中，得到一个新的聚类结果，然后计算每个类的样本均值，作为新的类中心，重复以上步骤直至收敛
假设样本数 $n > k$ ， $k$ 个类 $G_{1},G_{2},\cdots,G_{k}$ 形成对样本集合 $X$ 的划分，其中 $G_{i}\cap G_{j}=\varnothing$

3.1 策略

通过损失函数的最小化选取最优的划分或函数：
采用欧式距离的平方作为样本之间的距离 $d_{ij}=\sum_{k=1}^{m}\vert x_{ki}-x_{kj}\vert^{2}=\Vert x_{i}-x_{j}\Vert^{2}$
定义样本与其所属类中心的距离的综合为损失函数，即
$W(C)=\sum_{l=1}^{k}\sum_{C_{i}=l}\Vert x_{i}-\bar{x}_{l}\Vert^{2}$
其中 $\bar{x}_{l}$ 表示类 $l$ 的中心， $n_{l}=\sum_{i=1}^{n}I(C(i)=l)$ ， $I (C (i) = l)$ 表示指示函数，取值为 $0$ 或 $1$ 。 $C$ 表示划分

3.2 算法

迭代：

首先选择 $k$ 个类的中心，将样本逐个划分到与其最近的中心的类中，得到一个聚类结果
更新每个类的样本均值，将其作为新的类的中心
重复以上步骤直至收敛，

算法：
输入： $n$ 个样本的集合
输出：样本集合的聚类 $C^{*}$
（1）初始化：首先随机选取 $k$ 个样本作为初始类中心 $m^{(0)}=(m_{1}^{(0)},m_{2}^{(0)},\cdots,m_{k}^{(0)})$
（2）对样本进行聚类：对固定的类中心 $m^{(t)}=(m_{1}^{(t)},m_{2}^{(t)},\cdots,m_{k}^{(t)})$ ，其中 $m_{l}^{(t)}$ 表示第 $t$ 次迭代时类 $l$ 的中心，计算每个样本到类中心的距离，并将其指派到与其最近的中心的类中，构造新的聚类结果 $C^{t}$
（3）计算新的类中心，对于聚类结果 $C^{t}$ 。计算当前各个类中的样本均值，作为新的类中心 $m^{(t+1)}=(m_{1}^{(t+1)},m_{2}^{(t+1)},\cdots,m_{k}^{(t+1)})$
（4）如果迭代收敛或者符合停止条件，输出 $C^{*}=C^{t}$ ，否则 $t = t + 1$ ，返回步骤（2）

3.3 特点

总体特点：
1. 基于划分的聚类方式
2. 类别 $k$ 实现指定
3. 以欧氏距离表示样本之间的距离，以中心或样本均值表示类别
4. 以样本到其所属类中心的距离和作为优化目标
5. 得到的类别时平坦的，非层次化的
6. 迭代算法，不能保证是全局最优
收敛性：
属于启发式算法，不能保证全局最优，且初始中心的选择会直接影响聚类结果
初始类中心的选择：
根据层次聚类对样本进行聚类，得到 $k$ 个类时停止，然后从 $k$ 个类中选取距离类中心最近的样本作为初始类中心
类别数 $k$ 的选择
尝试用不同的 $k$ 聚类，检验各自得到的聚类结果的质量，推测最佳 $k$ 值。
聚类结果的质量可以用类的平均直径来衡量。当类别数变小时，类的平均直径会增加，当类别数增加至某个值时，平均直径会不变，而该值就为最优的 $k$ 值
1. 肘部法：计算不同 $k$ 值对应的cost损失，cost为损失函数 $W (C)$ 可以得到肘部图，当 $k$ 值增加至某个值时，继续增大 $k$ ，cost损失不再减小