与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组为被标记的样本,聚类根据数据自身的距离或相似度将其划分为若干组,划分的原则是组内距离最小化而组间距离最大化。
常用聚类方法
类别 | 包括的主要算法 |
---|---|
划分方法 | K-Means算法,K-MEDOIDS算法,CLARANS算法 |
层次分析方法 | BIRCH算法,CURE算法,CHAMELEON算法 |
基于密度的方法 | DBSCAN算法,DENCLUE算法,OPTICS算法 |
基于网格的方法 | STING算法,CLIOUE算法,WAVE-CLUSTER算法 |
基于模型的方法 | 统计学方法,神经网络方法 |
常用聚类分析算法
算法名称 | 算法描述 |
---|---|
K-Means算法 (均值) | 快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K |
K-MEDOIDS算法(中心点) | 不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心 |
系统聚类 | 又称为多层次聚类,分类的单位由高到低呈树形结 |