机器学习：聚类

最新推荐文章于 2024-05-08 12:11:34 发布

阿狸轰

最新推荐文章于 2024-05-08 12:11:34 发布

阅读量1k

点赞数 16

分类专栏：机器学习文章标签：机器学习聚类人工智能

本文链接：https://blog.csdn.net/Alaskan_Husky/article/details/134762007

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

聚类是机器学习中的一种无监督学习方法，它旨在将数据集中的样本分成相似的组别或簇，使得同一组内的样本相互之间更为相似，而不同组之间的样本差异较大。以下是聚类的一些关键概念和方法：

1.K均值聚类（K-Means Clustering）：

K均值聚类（K-Means Clustering）是一种常见的无监督学习算法，用于将数据集中的样本划分成K个簇。这里简要介绍K均值聚类的基本原理和步骤：

初始化： 选择K个初始中心点，通常从数据集中随机选择。这些中心点将作为簇的代表。
分配数据点： 对数据集中的每个样本，将其分配给距离最近的中心点所对应的簇。这一步使用欧氏距离或其他距离度量。
更新簇中心： 对每个簇，计算其所有成员样本的均值，将均值作为新的簇中心。
重复迭代： 重复步骤2和步骤3，直到簇中心不再发生显著变化或达到预定的迭代次数。
输出结果： 最终得到K个簇，每个簇包含一组相似的数据点。

K均值聚类的优点包括简单易实现、计算效率高，尤其对于大规模数据集较为适用。然而，它也有一些缺点，如对初始中心点的敏感性、对异常值的敏感性，以及对非球形簇结构的适应性较差。

在实际应用中，为了避免局部最优解，常常运行算法多次并选择最好的结果。同时，选择合适的簇数K也是关键，可以通过Elbow方法等方式进行估计。

2.层次聚类（Hierarchical Clustering）：

层次聚类（Hierarchical Clustering）是一种无监督学习方法，它以树状结构（树状图或树状图谱）表示数据集中样本的聚类关系。层次聚类可以分为两种主要方法：凝聚层次聚类和分裂层次聚类。

凝聚层次聚类（Agglomerative Hierarchical Clustering）：
- 初始状态： 将每个数据点视为一个单独的簇。
- 合并过程： 通过迭代地合并最相似的簇，形成一个层次结构，直至所有数据点合并为一个大的簇。
- 相似度度量： 通过定义不同的相似度度量（如欧氏距离、曼哈顿距离等），确定簇的相似性。
分裂层次聚类（Divisive Hierarchical Clustering）：
- 初始状态： 将所有数据点视为一个大的簇。
- 分裂过程： 通过迭代地将最不相似的簇分裂为较小的簇，形成一个层次结构，直至每个数据点都成为一个独立的簇。
- 相似度度量： 同样使用不同的相似度度量确定簇的相似性。

在层次聚类的结果中，树状结构的每个节点代表一个簇，叶子节点表示单个数据点。这种层次结构可以通过树状图直观地展示不同层次的聚类结果。

层次聚类的优点包括不需要预先指定簇的数量、结果的可视化直观，但缺点包括计算复杂度较高，特别是对于大型数据集。在选择相似度度量和连接方式（单链接、全链接等）时，需要根据具体问题和数据特征进行调整。

3.DBSCAN（Density-Based Spatial Clustering of Applications with Noise）：

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种密度聚类算法，它能够发现任意形状的簇，并在聚类的同时识别噪声点。以下是DBSCAN的基本原理和步骤：

核心对象（Core Points）： 对于每个数据点，以指定的半径（ε，epsilon）内的邻域内的数据点数量（包括自身），如果这个数量大于等于一个预定的阈值（MinPts），则该点被认为是核心对象。
密度可达（Density-Reachable）： 如果一个点在另一个点的邻域内，并且这个点是核心对象，那么这两个点是密度可达的。
密度相连（Density-Connected）： 如果存在一个核心对象C，对于两个点A和B，A和B都是密度可达于C，那么A和B是密度相连的。
聚类形成： DBSCAN从数据集中选择一个未被访问的核心对象，通过密度可达性和密度相连性找到其密度可达的所有点，将它们组成一个簇。然后，重复这个过程，直到所有核心对象都被访问为止。
噪声点： 那些不是任何簇成员的数据点被标记为噪声点。

DBSCAN的优点包括对于不同形状和大小的簇具有很好的适应性，而且能够识别和排除噪声。然而，DBSCAN对于选择合适的半径参数和MinPts参数比较敏感，而且在处理具有不同密度区域的数据时可能表现不佳。

在使用DBSCAN时，需要根据具体的数据集特点进行参数调优，以获得满足实际需求的聚类效果。

4.谱聚类（Spectral Clustering）：

谱聚类（Spectral Clustering）是一种基于图论和矩阵分解的聚类方法，适用于发现复杂结构和非凸形状的簇。以下是谱聚类的基本原理和步骤：

相似度图构建： 对给定的数据集，通过计算每对样本之间的相似度，构建相似度矩阵（相似度图）。常用的相似度度量包括高斯核函数、K邻近法等。
拉普拉斯矩阵计算： 从相似度矩阵中构建拉普拉斯矩阵。拉普拉斯矩阵有多种形式，包括未标准化拉普拉斯矩阵、对称标准化拉普拉斯矩阵等。
特征向量分解： 对拉普拉斯矩阵进行特征向量分解，得到相应的特征向量。
特征向量划分： 将特征向量按照对应的特征值进行划分，形成新的表示样本的低维空间。这个过程通常使用K均值等方法。
形成聚类： 利用低维空间中的样本表示，应用传统的聚类算法（如K均值）将样本划分成K个簇。

谱聚类的优势在于能够处理复杂的簇结构，且对数据的分布形状没有假设。然而，谱聚类的计算复杂度较高，尤其是在大型数据集上。在实际应用中，选择相似度度量、相似度图构建方法以及特征向量划分的策略都需要谨慎考虑，以获得良好的聚类效果。

5.高斯混合模型（Gaussian Mixture Model，GMM）：

高斯混合模型（Gaussian Mixture Model，GMM）是一种概率模型，用于对数据集进行聚类和密度估计。它假设数据是由多个高斯分布组合而成的，每个高斯分布称为一个分量。以下是高斯混合模型的基本原理和步骤：

模型表示： GMM由多个高斯分布组成，每个高斯分布对应一个聚类簇。这些高斯分布的混合形成了整个数据的概率密度函数。
参数： GMM的参数包括每个高斯分布的均值、协方差矩阵和混合系数（每个分量对整体的贡献权重）。
概率密度函数： GMM的概率密度函数表示为各个分量的加权和，其中权重由混合系数确定。对于数据点x，其属于第i个分量的概率为： $P(X|\theta _{i})=\frac{1}{(2\pi ^{D/2}\left | \sum _{i} \right |^{1/2})}exp(-\frac{1}{2}(x-\mu _{i})^{T\sum_{i}^{-1}}(x-\mu _{i}))$
模型训练： 使用期望最大化（Expectation-Maximization，EM）算法进行训练。在E步骤中，根据当前参数计算每个样本属于每个分量的概率；在M步骤中，更新模型的参数，使得似然函数最大化。
选择聚类数： 在使用GMM时，通常需要选择合适的聚类数（分量数量）。常用的方法包括BIC（Bayesian Information Criterion）和AIC（Akaike Information Criterion）。

GMM的优势在于对数据分布的建模更加灵活，能够处理复杂的数据结构。它在图像分割、异常检测、语音识别等领域有广泛应用。然而，需要谨慎处理过拟合的问题，并确保选择合适的聚类数和初始化参数。

6.聚类评估指标：

聚类评估指标用于衡量聚类算法对数据的分组质量。以下是一些常用的聚类评估指标：

Silhouette分数： Silhouette分数是一种用于度量簇内样本紧密度和簇间样本分离度的指标。其取值范围在[-1, 1]之间，值越高表示簇内样本越紧密，簇间样本越分散。
Calinski-Harabasz指数： 该指数通过簇内的紧密度和簇间的分离度的比值来评估聚类的质量。分数越高表示聚类效果越好。
Davies-Bouldin指数： 这是一种评估簇的紧密度和分散度之间平衡性的指标。低值表示簇内紧密度高，簇间分离度大。
轮廓系数： 轮廓系数结合了簇内样本的紧密度和簇间样本的分离度，其值在[-1, 1]之间。高轮廓系数表示簇的质量较高。
Gap统计量： Gap统计量通过比较实际数据与随机数据的聚类结果，评估实际聚类效果是否显著优于随机。Gap值越大表示聚类效果越好。
CHI（Calinski-Harabasz Index）： 类似于Calinski-Harabasz指数，用于衡量簇的紧密度和分散度。
ARI（Adjusted Rand Index）： 用于评估两个聚类结果的相似性，考虑到了由于纯度引起的随机性。
NMI（Normalized Mutual Information）： 也用于度量两个聚类结果的相似性，考虑到了簇的大小和相互信息。

选择合适的聚类评估指标通常取决于数据的性质和聚类任务的目标。在实际应用中，可以结合多个指标来全面评估聚类效果。

7.特征缩放：

在进行聚类任务时，特征缩放对于某些聚类算法的性能和稳定性至关重要。以下是在进行聚类时应用特征缩放的一些建议：

K均值聚类： K均值聚类对特征的尺度非常敏感，因为它使用欧氏距离来度量样本之间的相似性。在应用K均值之前，通常需要对特征进行标准化或归一化。
层次聚类： 层次聚类的性质使得它对特征缩放的要求相对较小。然而，如果数据在某个维度上的尺度远大于其他维度，仍然建议进行标准化。
DBSCAN： DBSCAN使用样本之间的密度来进行聚类，因此对特征缩放的敏感性相对较低。然而，如果数据在某个维度上的尺度相差较大，仍建议进行标准化以提高算法的鲁棒性。
谱聚类： 谱聚类的性能受特征尺度的影响较小，但标准化可以有助于提高算法的收敛速度和稳定性。
高斯混合模型： 高斯混合模型对于特征的尺度较为敏感，特别是在使用EM算法进行参数估计时。标准化或归一化是推荐的预处理步骤。

总体来说，对于大多数聚类算法，特征缩放都是一个有益的预处理步骤，有助于提高算法的性能和对数据的鲁棒性。选择标准化或归一化通常取决于数据的分布和算法的特性。在应用聚类算法之前，建议先观察数据的特征尺度并选择适当的特征缩放方法。

8.处理异常值：

处理异常值是数据预处理的重要环节，特别是在聚类任务中，异常值可能会对结果产生不良影响。以下是一些处理异常值的常见方法：

删除异常值： 最简单的方法是直接删除数据集中的异常值。然而，这样做可能导致信息的丢失，特别是在数据量较小的情况下。
截尾/缩尾处理： 将超过一定范围的数值截尾或缩尾到一个预定的范围内。这样可以减轻异常值对整体分布的影响。
替代异常值： 将异常值替代为数据的均值、中位数或其他合适的代理值。这有助于保留数据的整体结构，但可能引入一些偏差。
使用缩尾均值/中位数： 计算修剪掉异常值后的均值或中位数。这有助于减轻异常值对统计指标的影响。
使用缩放： 对数据进行缩放，例如使用Robust标准化，它对异常值更具鲁棒性。
使用聚类检测异常值： 利用聚类算法，将数据点分为簇，并识别那些不属于任何簇或属于较小簇的数据点作为异常值。
使用统计方法： 基于统计学的方法，如Z分数或箱线图，来检测和处理异常值。

在处理异常值时，需要综合考虑数据的特点、业务需求以及所使用的聚类算法对异常值的敏感性。同时，应该谨慎处理异常值，以免误伤正常数据或引入不合理的处理。

9.选择合适的距离度量：

选择合适的距离度量是进行聚类任务时的关键决策之一，因为不同的距离度量可能导致完全不同的聚类结果。以下是一些常用的距离度量以及它们的应用场景：

欧氏距离（Euclidean Distance）： 在欧氏空间中测量两点之间的直线距离。适用于数据特征的尺度相似且线性相关的情况。K均值聚类通常使用欧氏距离。
曼哈顿距离（Manhattan Distance）： 也称为城市街区距离，是两点在每个维度上坐标数值差的绝对值之和。适用于特征的尺度差异较大的情况。
切比雪夫距离（Chebyshev Distance）： 在所有维度中，两点坐标数值差的最大值。适用于特征的尺度差异非常大，但在某些维度上相似的情况。
闵可夫斯基距离（Minkowski Distance）： 是欧氏距离和曼哈顿距离的泛化形式。当p=2时，退化为欧氏距离；当p=1时，为曼哈顿距离。
余弦相似度（Cosine Similarity）： 衡量两个向量的夹角余弦值，而不考虑它们的绝对大小。适用于文本挖掘等场景。
Jaccard相似度（Jaccard Similarity）： 用于测量两个集合的相似性，是两个集合交集大小与并集大小的比值。
汉明距离（Hamming Distance）： 主要用于度量两个等长字符串在相同位置上不同元素的个数。
地球距离（Haversine Distance）： 用于度量地球上两点之间的距离，经常在地理空间数据中使用。

选择合适的距离度量应该考虑数据的特性、问题的领域以及算法的要求。在实际应用中，通常需要根据具体情况进行尝试和调整，以获得更符合数据结构和问题背景的聚类结果。

10.处理高维数据：

处理高维数据的聚类面临着一些挑战，如维度灾难和稀疏性。以下是一些处理高维数据聚类的方法和建议：

特征选择： 通过选择最相关的特征，可以降低维度灾难的影响。使用特征选择方法，如方差阈值、互信息、LASSO等，以排除对聚类贡献较小的特征。
降维技术： 使用降维技术可以将高维数据映射到一个较低维的子空间，保留数据的主要信息。常用的降维方法包括主成分分析（PCA）、t-SNE、LLE等。这有助于改善聚类效果并减少计算开销。
密度聚类： 密度聚类算法（如DBSCAN）对高维数据相对较为鲁棒，因为它们不依赖于欧氏距离或维度的选择。这种方法在处理高维数据时可能更有效。
谱聚类： 谱聚类通常在较低维的特征空间中进行，可以通过选择前几个主成分来减少数据的维度。这有助于处理高维数据并提高算法的效率。
考虑稀疏性： 针对高维数据的稀疏性，可以选择适用于稀疏数据的聚类算法，例如谱聚类或基于子空间的聚类方法。
正则化聚类： 一些聚类算法已经考虑到了高维数据的问题，例如使用L1或L2正则化项。这有助于在优化过程中稀疏地选择有用的特征。
利用领域知识： 如果有领域知识可用，可以通过专业知识来选择重要的特征或设计更有效的特征表示，从而减小高维数据的影响。
并行计算： 对于大规模高维数据，可以考虑使用并行计算技术，如分布式计算框架，以加速聚类算法的执行。

在处理高维数据时，一种常见的做法是结合多个方法，观察它们的效果，并根据实验结果选择最适合数据集和任务的方法。

11.选择合适的聚类数：

选择适当的聚类数需要结合数据的特点和任务需求。以下是一些常用的方法：

肘部法则（Elbow Method）：通过绘制聚类数与评估指标（如簇内平方和）的图表，找到肘部，即在该点增加聚类数不再显著改善指标。这通常对应于一个合适的聚类数。
轮廓系数（Silhouette Score）：计算每个数据点的轮廓系数，然后计算整体的平均值。聚类数对应于具有最大轮廓系数的模型。
Calinski-Harabasz指数：该指数考虑了簇内的离散度和簇间的相似性，寻找一个能够最大化这个指数的聚类数。
Gap统计量：通过比较原始数据和随机数据集的性能，可以使用Gap统计量来评估不同聚类数的表现。
层次聚类图：在层次聚类中，绘制树状图（树状图）可以帮助直观地确定合适的聚类数。

记住，最终的选择可能是一项主观决策，并可能需要多个方法的结合。同时，领域专业知识也是重要的因素，以确保聚类数的选择符合实际情况。

12.可解释性和应用场景：

聚类的可解释性和应用场景取决于具体的算法、数据以及任务需求。以下是一些通用的观点：

可解释性：聚类算法的可解释性指的是人们能够理解和解释聚类结果的程度。K均值聚类相对较易解释，因为它将数据划分为具有相似均值的簇。层次聚类的树状结构也提供了直观的可解释性。
应用场景：
- 市场细分：在市场营销中，聚类可用于将消费者分为不同的群体，以便更好地理解其需求和行为。
- 图像分割：在计算机视觉中，聚类可用于图像分割，将图像中相似的区域组合在一起。
- 异常检测：通过聚类可以识别数据中的异常点，因为异常点可能与正常点在某些特征上有所不同。
- 推荐系统：将用户或产品聚类可以帮助建立更精准的推荐系统，将相似的用户或产品放在一组。
- 基因表达分析：在生物信息学中，聚类可用于对基因表达数据进行分析，以发现相似的表达模式。
挑战：在实际应用中，聚类可能面临的挑战之一是定义合适的特征和距离度量，以及处理高维数据。此外，聚类的结果可能因初始条件而异，因此需要谨慎评估和解释结果。

总体而言，聚类在数据挖掘、模式识别和信息检索等领域有广泛应用，但在选择和解释结果时需要根据具体情况进行权衡。

13.迭代优化：

聚类的迭代优化通常涉及到不断更新簇分配和簇中心，以使聚类结果更加准确。这过程通常通过迭代执行以下步骤来实现，以K均值聚类为例：

初始化：选择初始的簇中心。这可以是从数据中随机选择或使用其他方法如K均值++。
分配数据点：将每个数据点分配到最近的簇中心，通常使用欧氏距离或其他距离度量。
更新簇中心：计算每个簇的新中心，通常为该簇中所有数据点的平均值。
检查收敛：检查算法是否收敛，即簇中心的更新是否足够小。如果没有达到收敛标准，则返回第2步。

这个过程不断迭代，直到满足收敛条件为止。在每一次迭代中，数据点被重新分配到簇，簇中心被重新计算，直至收敛为止。

优化技巧：

初始点的选择：良好的初始点选择可以加速收敛，例如K均值++算法就是通过选择更合适的初始点来提高算法的性能。
迭代次数：设置合适的迭代次数，避免过多或过少的迭代。可以使用收敛标准来判断是否停止迭代。
并行化：针对大规模数据集，可以考虑并行化计算，加速迭代过程。
距离度量的优化：根据数据的特性选择合适的距离度量，有时候使用加速技术，如KD树，可以提高计算效率。

这些优化技巧有助于提高聚类算法的效率和收敛速度。选择适当的技巧取决于数据的性质和问题的要求。

在实际应用中，选择适当的聚类方法和簇数取决于数据的特点以及问题的需求。聚类在数据分析、图像分割、推荐系统等领域都有广泛的应用。

阿狸轰

关注

16
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
机器学习：聚类

聚类是机器学习中的一种无监督学习方法，它旨在将数据集中的样本分成相似的组别或簇，使得同一组内的样本相互之间更为相似，而不同组之间的样本差异较大。K均值聚类（K-Means Clustering）是一种常见的无监督学习算法，用于将数据集中的样本划分成K个簇。选择K个初始中心点，通常从数据集中随机选择。这些中心点将作为簇的代表。对数据集中的每个样本，将其分配给距离最近的中心点所对应的簇。这一步使用欧氏距离或其他距离度量。对每个簇，计算其所有成员样本的均值，将均值作为新的簇中心。
复制链接

扫一扫