层次聚类 hierarchical clustering
K-means聚类
BFR
K-means方法的改进算法。目的是为了解决在高维欧氏空间中对数据进行聚类时内存不够的问题。本算法可以用在分布式系统中,每次计算机只加载一部分数据,分多次加载。BFR算法同样需要在最开始的时候规定聚类质心数K。方法可以是先用层次聚类法确定最佳K值。
BFR算法使用前提:必须满足数据是以质心为期望的正态分布,且数据的不同维度互相独立。
首先计算机初始化三个集合:
- 废弃集Discard Set,已经形成了簇(cluster), 已经分配给某个质心。废弃集只保留簇的简单概要信息,而将概要代表的点废弃了。
- 压缩集Compression Set,已经聚合了的点集,但是尚未分配给某个质心。压缩集所代表的的点也被废弃,只保留点集的概要信息。压缩集通常被称为迷你簇(minicluster)
- 留存集Retained Set,用于存储离散的尚未被聚合的点。
压缩集与废弃集中点集的表现形式
算法步骤: