概念
BIRCH算法的全称是Balanced Iterative Reducing and Clustering Using Hierarchies,即利用层次方法的迭代归约和聚类。它的主要思想是建立一棵B树,原始数据存放在叶子节点中,并根据聚类个数和其它参数的设置放在不同的叶子节点中。
聚类特征CF
聚类特征CF是BIRCH算法最核心的概念,它是多个数据点的结合表示,是一个三元组 (N,LS,SS) ,其中 N 代表数据点的个数,
比如有3个点 (1,2,3),(4,5,6),(7,8,9) ,那么
⎧⎩⎨⎪⎪⎪⎪⎪⎪N=3LS→=(1+4+7,2+5+8,3+6+9)=(12,15,18)SS→=(1+16+49,4+25+64,9+36