1. CLARA(Cluster Larger Application)是基于k-中心点类型的算法,能处理更大的数据集合。CLARA先抽取数据集合的多个样本,然后用PAM方法在抽样的样本中寻找最佳的k中心点,返回最好的聚类结果作为输出。但不然k-中心点准确,CLARA准确度取决于抽样算法。
2. CLArANS(Cluster Larger Application baed upon RANdomized search,随机搜索聚类算法),另一种k-中心点的算法,与CLARA类似采用抽样方法,但也有不同:CLArANS在搜索的每一步都带一定随机性地选取一个样本。
层次聚类方法
层次聚类分为两种:
(1) 凝聚的层次聚类:自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为更大的簇,直到所有的对象都在同一个簇中,或者满足终止条件。
(2) 分类的层次聚类:自顶向下的策略。
AGNES算法
AGNES(Agglomerative Nesting) 是凝聚的层次聚类算法,如果簇C1中的一个对象和簇C2中的一个对象之间的距离是所有属于不同簇的对象间欧式距离中最小的,C1和C2可能被合并。这是一种单连接方法,其每个簇可以被簇中的所有对象代表,两个簇之间的相似度由这两个簇中距离最近的数据点对的相似度来确定。
算法描述:
输入:包含n个对象的数据库,终止条件簇的数目k
输出:k个簇
(1) 将每个对象当成一个初始