一、聚类分析概述
聚类分析的概念
无监督学习(Unsupervise Learning)着重于发现数据本身的分布特点。与监督学习(Supervised Learning)不同,无监督学习不需要对数据进行标记。从功能角度讲,无监督学习模型可以发现数据的“群落”,同时也可以寻找“离群”的样本。另外,对于特征维度非常高的数据样本,同样可以通过无监督学习进行数据降维,保留最具有区分性的低维度特征。
聚类是一个将数据对象集划分为多个组或簇的过程,使得簇内的数据对象具有很高的相似性,但不同簇间的对象具有很高的相异性。
聚类算法分类
随着聚类分析技术的蓬勃发展,目前已有很多类型的聚类算法。但很难对聚类方法进行简单的分类,因为这些类别的聚类可能重叠,从而使得一种方法具有一些交叉的特征。
一般而言,聚类算法被划分为以下几类:
1.划分方法
(基于距离判断数据对象相似度:K-Means算法和K中心点算法)
2.基于层次的方法
(凝聚的方法和分裂的方法)
3.基于密度的方法
(不规则形状的簇)
4.基于网格的方法
(使用一种多分辨率的网格数据结构)