聚类方法总结

最新推荐文章于 2024-05-15 09:47:32 发布

dili8870

最新推荐文章于 2024-05-15 09:47:32 发布

阅读量729

点赞数

文章标签：人工智能数据结构与算法大数据

原文链接：http://www.cnblogs.com/nxf-rabbit75/p/10440662.html

版权

　　大致可以分为划分法（Partitioning Methods）、 层次法（Hierarchical Methods）、基于密度的方法（density-based methods）、 基于网格的方法（grid-based methods）、基于模型的方法（Model-Based Methods）。

一、Partition-based methods

原理：想象你有一堆散点需要聚类，想要的聚类效果就是“类内的点都足够近，类间的点都足够远”。首先你要确定这堆散点最后聚成几类，最后挑选几个点作为初始中心点，再然后依据预先定好的启发式算法给数据点做迭代重置，直到最后到达“类内的点都足够近，类间的点都足够远”的目标效果。如：k-means、k-medoids、k-modes、k-medians、kernel k-means。

　　k-means对初始值的设置很敏感，所以有了k-means+ +、intelligent k- means、genetic k- means; k-means对噪声和离群值非常敏感，所以有了k-medoids和k- medians; k means只用于numerical类型数据，不适用于categorical类型数据，所以k-modes; k-means 不能解决非凸(non-convex) 数据，所以有了kernel k-means。另外，很多教程都告诉我们Partition- based methods聚类多适用于中等体量的数据集，但我们也不知道”中等”到底有多”中”,所以不妨理解成，数据集越大，越有可能陷入局部最小。下图显示的就是面对非凸，k- means和kernel k means的不同效果。

1、K-means

（1）k-means的EM解释

期望步（E-步）：给定当前的簇中心，每个对象都被指派到簇中心离该对象最近的簇。这里，期望每个对象都属于最近的簇。

最大化步（M-步）：给定簇指派，对于每个簇，算法调整其中心，使得指派到该簇的对象到该新中心到的距离之和最小化。也就是说，将指派到一个簇的对象的相似度最大化。

（2）k-means算法的优缺点

优点：

k-means算法是解决聚类问题的一种经典算法，算法简单、快速。
对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度大约是O(nkt)，其中n是所有对象的数目，k是簇的数目,t是迭代的次数。通常k远小于n。这个算法通常局部收敛。
算法尝试找出使平方误差函数值最小的k个划分。当簇是密集的、球状或团状的，且簇与簇之间区别明显时，聚类效果较好。

缺点：

k-平均方法只有在簇的平均值被定义的情况下才能使用，且对有些分类属性的数据不适合。
要求用户必须事先给出要生成的簇的数目k。
对初值敏感，对于不同的初始值，可能会导致不同的聚类结果。
不适合于发现非凸面形状的簇，或者大小差别很大的簇。
对于”噪声”和孤立点数据敏感，少量的该类数据能够对平均值产生极大影响。

（3）K-means与K-means++

　　原始K-means算法最开始随机选取数据集中K个点作为聚类中心，而K-means++按照如下的思想选取K个聚类中心：假设已经选取了n个初始聚类中心(0<n<K)，则在选取第n+1个聚类中心时：距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。

（4）K-means与ISODATA

　　ISODATA的全称是迭代自组织数据分析法。在K-means中，K的值需要预先人为地确定，并且在整个算法过程中无法更改。而当遇到高维度、海量的数据集时，人们往往很难准确地估计出K的大小。ISODATA就是针对这个问题进行了改进，它的思想也很直观：当属于某个类别的样本数过少时把这个类别去除，当属于某个类别的样本数过多、分散程度较大时把这个类别分为两个子类别。

IDODATA参数：预期的聚类中心数目Ko：最终输出的聚类中心数目范围是 [Ko/2, 2Ko]；每个类所要求的最少样本数目Nmin；最大方差Sigma：用于衡量某个类别中样本的分散程度。当样本的分散程度超过这个值时，则有可能进行分裂操作；两个类别对应聚类中心之间所允许最小距离dmin：两个类别对应聚类中心之间的距离非常小，则需要对这两个类别进行合并操作。

（5）K-means与Kernel K-means

传统K-means采用欧式距离进行样本间的相似度度量，显然并不是所有的数据集都适用于这种度量方式。参照支持向量机中核函数的思想，将所有样本映射到另外一个特征空间中再进行聚类，就有可能改善聚类效果。

二、Density-based methods

1、DBSCAN

Density- based methods: 上面这张图你也看到了，k- means解决不了这种不规则形状的聚类。于是就有了Density- based methods来系统解决这个问题。该方法同时也对噪声数据的处理比较好。其原理简单说画圈儿，其中要定义两个参数，一个是圈儿的最大半径，一个是一个圈儿里最少应容纳几个点。最后在一个圈里的，就是一个类。DBSCAN (Density- BasedSpatial Clustering of Applications with Noise)就是其中的典型，可惜参数设置也是个问题，对这两个参数的设置非常敏感。DBSCAN的扩展叫OPTICS (Ordering Points To IdentifyClustering Structure)通过优先对高密度(high density)进行搜索，然后根据高密度的特点设置参数，改善了DBSCAN的不足。下图就是表现了DBSCAN对参数设置的敏感。

（1）算法

（2）DBSCAN优缺点：

优点：

可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集。
可以在聚类的同时发现异常点，对数据集中的异常点不敏感。
聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响。

缺点：

如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不适合。
如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。
调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值ϵ，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

三、Grid-based methods

　　这类方法的原理就是将数据空间划分为网格单元，将数据对象集映射到网格单元中，并计算每个单元的密度。根据预设的阈值判断每个网格单元是否为高密度单元，由邻近的稠密单元组形成”类“。该类方法的优点就是执行效率高，因为其速度与数据对象的个数无关，而只依赖于数据空间中每个维上单元的个数。但缺点也是不少，比如对参数敏感、无法处理不规则分布的数据、维数灾难等。STING（STatistical INformation Grid）和CLIQUE（CLustering In QUEst）是该类方法中的代表性算法。下图是CLIQUE的一个例子：

四、Model-based methods

这一类方法主要是指基于概率模型的方法和基于神经网络模型的方法，尤其以基于概率模型的方法居多。这里的概率模型主要指概率生成模型（generative Model），同一”类“的数据属于同一种概率分布。这种方法的优点就是对”类“的划分不那么”坚硬“，而是以概率形式表现，每一类的特征也可以用参数来表达；但缺点就是执行效率不高，特别是分布数量很多并且数据量很少的时候。其中最典型、也最常用的方法就是高斯混合模型（GMM，Gaussian Mixture Models）。基于神经网络模型的方法主要就是指SOM（Self Organized Maps）了，也是我所知的唯一一个非监督学习的神经网络了。下图表现的就是GMM的一个demo，里面用到EM算法来做最大似然估计。

五、数据简化（data reduction）

　　这个环节optional。其实第二部分提到的有些算法就是对数据做了简化，才得以具备处理大规模数据的能力，比如BIRCH。但其实你可以任意组合，所以理论上把数据简化的方法和上面提到的十几种聚类算法结合使用，可以有上百个算法了。

变换（Data Transformation）：离散傅里叶变换（Discrete Fourier Transformation）可以提取数据的频域（frequency domain）信息，离散小波变换（Discrete Wavelet Transformation）除了频域之外，还可以提取到时域（temporal domain）信息。
降维（Dimensionality Reduction）：在降维的方法中，PCA（Principle Component Analysis）和SVD（Singular Value Decomposition）作为线性方法，受到最广泛的应用。还有像MDS（Multi-Dimensional Scaling）什么的，不过只是作为PCA的一个扩展，给我的感觉是中看不中用。这几个方法局限肯定是无法处理非线性特征明显的数据。处理非线性降维的算法主要是流形学习（Manifold Learning），这又是一大块内容，里面集中常见的算法包括ISOMAP、LLE（Locally Linear Embedding）、MVU（Maximum variance unfolding）、Laplacian eigenmaps、Hessian eigenmaps、Kernel PCA、Probabilistic PCA等等。流形学习还是挺有趣的，而且一直在发展。关于降维在聚类中的应用，最著名的应该就是在评论里提到的谱聚类（Spectral Clustering），就是先用Laplacian eigenmaps对数据降维（简单地说，就是先将数据转换成邻接矩阵或相似性矩阵，再转换成Laplacian矩阵，再对Laplacian矩阵进行特征分解，把最小的K个特征向量排列在一起），然后再使用k-means完成聚类。谱聚类是个很好的方法，效果通常比k-means好，计算复杂度还低，这都要归功于降维的作用。
抽样（Sampling）：最常用的就是随机抽样（Random Sampling），如果你的数据集特别大，随机抽样就越能显示出它的低复杂性所带来的好处。比如CLARA（Clustering LARge Applications）就是因为k-medoids应对不了大规模的数据集，所以采用sampling的方法。

参考文献：

【1】用于数据挖掘的聚类算法有哪些，各有何优势？

转载于:https://www.cnblogs.com/nxf-rabbit75/p/10440662.html

dili8870

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
聚类方法总结

　　大致可以分为划分法（Partitioning Methods）、层次法（Hierarchical Methods）、基于密度的方法（density-based methods）、基于网格的方法（grid-based methods）、基于模型的方法（Model-Based Methods）。一、Partition-based methods原理：想象你有一堆散点需要聚类，...
复制链接

扫一扫