聚类分析学习-CSDN博客

本文链接：https://blog.csdn.net/2301_76760662/article/details/140479012

1：聚类任务

聚类是一种无监督的机器学习任务。与监督学习不同，聚类算法仅依赖输入数据，并致力于在特征空间中找到自然的组或群集。这些群集通常是特征空间中的密度区域，其中同一群集的数据点比其他群集更紧密地聚集在一起。聚类分析是根据在数据中发现的描述对象及其关系的信息，将数据对象分组。目的是，组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内相似性越大，组间差距越大，说明聚类效果越好。

2：不同的距离度量

对于函数dist(·,·)，若它是一个“距离度量”，则需满足四个性质
1.非负性：距离不为负
2.同一性：只有两点重合时距离才为0
3.对称性：A到B的距离等于B到A的距离
4.直递性：A到B再到C的距离之和要大于或等于从A直接到C的距离

p=1时 $dist_{mk}$ 即曼哈顿距离，p=2时 $dist_{mk}$ 即为欧氏距离

3：原型聚类的方法

3.1 k均值（k-means）算法

给定样本集D = {x1,x2,……xm}，k均值算法针对聚类所得的簇划分C = {C1,C2,……Ck}最小化平方误差

直观上看，该式刻画了簇内样本围绕簇均值向量的紧密程度，E值越小则簇内样本相似度越高。最小化上式并不容易，需要考察样本集D所有可能的簇划分，这是一个NP难问题，因此k均值算法采用了贪心策略，通过迭代优化来近似求解上面的公式，算法流程如下：

3.2 学习向量量化（LVQ）

LVQ假设数据样本带有类别标记Y = {y1,y2,……ym}，学习过程利用样本的这些监督信息来辅助聚类，其流程是

4：高斯混合聚类

高斯混合聚类采用概率模型来表达聚类原型

其中p(x丨ui,Σi）表示样本集中每个混合成分（高斯分布）的概率密度函数，ui为均值向量，Σi为协方差矩阵，αi为各成分的混合系数（概率）。

在高斯混合聚类中，我们需要学习的参数是，αi，ui，Σi，其流程为：

5：密度聚类技术

在密度聚类中，DBSCAN是一种著名的密度聚类算法，它基于一组“邻域”参数（e，MinPts）来刻画样本分布的紧密程度。算法涉及到的概念：
“e - 邻域”：在xj样本以e为半径范围内的所有样本的集合
核心对象：当样本 xj的 “e - 邻域”内含有至少 MinPts 个样本时，该样本 xj 是一个核心对象
密度直达：若 xj 位于 xi 的 “e - 邻域”中，且 xi 是核心对象，则称 xj 与 xi 密度直达
密度可达：若 xi 与 xj 能通过一系列密度直达的点关联起来，则 xi 与 xj 密度可达
密度相连：若 xi 与 xj 都能通过 xk 密度可达，则称 xi 与 xj 密度相连

基于以上概念，NBSCAN算法的目的是：从数据集D中，找出满足某些性质的聚类簇。这些性质是 NBSCAN算法的流程是：

6：层次聚类的算法和实现

层次聚类试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略，也可采用“自顶向下”的分拆策略。AGNES是一种采用自底向上聚合策略的聚类算法，它先将每个样本都作为一个簇，然后在算法运行的每一步找出距离最近的两个聚类簇进行合并，该过程不断重复，直到达到预设的聚类簇个数。流程如下：