【机器学习】聚类算法详细介绍（理论+图解）

海洋之心

已于 2022-11-27 10:21:09 修改

阅读量5.4k

点赞数 9

分类专栏：机器学习知识积累文章标签：聚类 python 人工智能算法

于 2021-07-16 22:14:29 首次发布

本文链接：https://blog.csdn.net/m0_47256162/article/details/118827559

版权

机器学习知识积累专栏收录该内容

79 篇文章

订阅专栏

🌠 『精品学习专栏导航帖』

🐳最适合入门的100个深度学习实战项目🐳
🐙【PyTorch深度学习项目实战100例目录】项目详解 + 数据集 + 完整源码🐙
🐶【机器学习入门项目10例目录】项目详解 + 数据集 + 完整源码🐶
🦜【机器学习项目实战10例目录】项目详解 + 数据集 + 完整源码🦜
🐌Java经典编程100例🐌
🦋Python经典编程100例🦋
🦄蓝桥杯历届真题题目+解析+代码+答案🦄
🐯【2023王道数据结构目录】课后算法设计题C、C++代码实现完整版大全🐯

简介：下面是我在学习时候的记录并加上自己的理解。本文意在记录自己近期学习过程中的所学所得，如有错误，欢迎大家指正。

关键词：Python、机器学习

一、聚类算法的定义

像一些经典的算法比如随机森林、支持向量机这些算法我们都知道，他们都是基于对数据标签进行学习，但是往往有的时候我们获得的数据是没有标签的，只有特征列数据等，这个时候我们就不能够使用之前的算法进行建模，我们需要采用一种新的方式进行区分样本。

在生活中，可以采用人工的方式进行将数据分类，利用人的经验分析数据的结构然后将其区分，但是这样往往会花费大量的人力物力，需要较多的人力资源，而且还需要专业的人员有着大量的经验才可以完美实现分类。

所以就产生了聚类相关的算法，例如高斯混合聚类、密度聚类、K-Means聚类等。它们都是通过对无标记训练样本的学习来解释数据的内在性质和规律。

聚类的本质其实就是数据集合的划分，就是如何将我们的数据清楚的划分到几个有区分的类别中，有的时候也将这个类别成为簇。因为聚类不像有监督学习，可以有一定的参考指标，它没有统一的划分标准，完全是按照算法的定义来进行划分数据。

二、常见的聚类算法

层次聚类：它的原理就是尝试以一种树状结构进行分割或者合并每个数据簇，一般有“自底向上”，就是首先将每个数据样本看成一个簇，然后计算簇间距离，然后不断地进行合并簇，最终生成几个大的数据簇，第二种就是“自上向下”，首先将所有数据看成一个数据簇，然后不断地进行分割，达到预期地要求，常见有AGNES算法。
原型聚类：常见算法有K-Means、LVQ、高斯混合聚类等，他们地原理都是首先在数据样本中找到一系列具有代表性地点，然后以它为中心进行扩展，不过不同的算法实现不太一样，有时候它也叫做基于质心的聚类。
概率分布聚类：它的原理就是假设每个簇内的样本数据符合某一种数据分布，然后遍历每个样本判断符合每一个簇的概率有多大，常见的就是高斯混合分布，他就是假设每个簇符合多元正态分布。
密度聚类：它是通过样本的结构与数据空间紧密程度进行计算的，根据空间中的样本密集程度进行划分簇。常见的算法有DBSCAN、Mean-Shift、OPTICS等。

三、评估指标

对于有监督学习中的分类可以将预测值和实际的分类进行对比获得模型预测的准确度，对于回归可以采用MSE均方误差进行模型好坏的衡量，但是对于聚类这种无监督学习没有标签的怎么进行衡量呢？

首先我们聚类的目的就是将相似的数据分类到一起，而关联较小的数据样本分隔开，所以很明显就是我们想要我们分类后的簇内的数据尽可能相似，不同簇内的数据尽可能地有较大区别，从空间上来讲，就是簇内聚合度高，簇间的距离相对较远。

对于这种情况，一般是有两种评估方式，第一种就是外部指标：外部指标就是值参考外界给的数据进行参考，比如说找到专业人员根据数据进行分析给出大体的聚类情况，然后对比模型的聚类情况与人工给出的进行对比。该方式过于依赖人工给定的结果。

那么另外一种方式就是内部指标：它可以从模型的角度进行出发，根据一些簇间或者簇内距离这些进行定义相关的数学评估指标。

下面介绍几种常见的簇划分距离定义：

1.该公式用于计算每个簇内的样本平均距离，那么为什么前面会有一个2/C*(C+1)呢，是因为在求和的过程中要求每个数据间的距离之和，那么就是有 $\frac{n(n-1)}{2}$ 中组合情况，所有要除以相应的个数。
$avg(C)=\frac{2}{C*(C+1)}*\sum_{1\leq i<j \leq C}dist(x_i,x_j)$
2.该公式是用来计算簇内之间的最远距离
$diam(C)=max_{1\leq i<j\leq C}dist(x_i,x_j)$

3.该公式是用于计算不同簇间的最近距离
$d_{min}(C_i,C_j)=min_{x_i\in C_i,x_j\in C_j}dist(x_i,x_j)$
4.该公式用来计算每个簇中心点之间的距离
$d_{cen}(C_i,C_j)=dist(\mu_i,\mu_j)$
常用的内部性能度量指标：