目录
先贴出我借鉴的博客
- https://www.cnblogs.com/pinard/p/6179132.html
- https://blog.csdn.net/congnaahahei/article/details/78881128
什么是BIRCH?
BIRCH的全称是利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing and Clustering Using Hierarchies),这个聚类算法只需要单遍扫描数据集就能进行聚类,BIRCH利用了一个树结构来帮助我们快速的聚类,这个树结构类似于平衡B+树,一般将它称之为聚类特征树(Clustering Feature Tree,简称CF Tree),这颗树的每一个节点是由若干个聚类特征(Clustering Feature,简称CF)组成。CF树的结构是:每个节点包括叶子节点都有若干个CF,而内部节点的CF有指向孩子节点的指针,所有的叶子节点用一个双向链表链接起来。(如下图)
聚类特征CF:
每一个CF是一个三元组,可以用(N,LS,SS)表示。其中N代表了这个CF中拥有的样本点的数量;LS代表了这个CF中拥有的样本点各特征维度的和向量,SS代表了这个CF中拥有的样本点各特征维度的平方和。
举例:
在这个结点中共有5个样本(N=5),每个样本的对应x坐标相加为LS(x)=3+2+4+4+3=16, y坐标相加为LS(y)=4+6+5+7+8&