首先,聚类分为硬聚类(hard clustering)和软聚类(soft clustering),硬聚类将数据分割为几个确定的类别,软聚类为每个数据点指定几个类别。硬聚类又可以分为分层聚类方法(hierarchical clustering methods)和平稳聚类方法(flat clustering methods),分层聚类方法产生数据的嵌套网状分割,平稳聚类产生一个单一的分割,K-MEANS属于平稳聚类。
下面,我们介绍一下分层聚类算法和K-MEANS算法:
分层聚类算法就是对给定数据对象的几何进行层次分解,根据分层分解采用的分解策略,分层聚类法又可以分为凝聚的(agglomerative)和分裂的(divisive)分层聚类。
1.凝聚的分层聚类
它采用自底向上的策略,首先将每一个对象作为一个类,然后根据某种度量(如2个当前类中心点的距离)将这些类合并为较大的类,直到所有的对象都在一个类中,或者是满足某个终止条件时为止,绝大多数分层聚类算法属于这一类,它们只是在类间相似度的定义上有所不同。