四种常用聚类及代码（三）：birch（一种层次聚类）

最新推荐文章于 2023-06-07 17:14:05 发布

水煮洋洋洋

最新推荐文章于 2023-06-07 17:14:05 发布

阅读量8.1k

点赞数 12

分类专栏：机器学习 nlp 文章标签：聚类 birch nlp 机器学习

本文链接：https://blog.csdn.net/weixin_43526820/article/details/89841560

版权

BIRCH是一种层次聚类算法，通过构建聚类特征树(CF Tree)来快速处理大规模数据。算法分为构建CF Tree和后续聚类两步，适合数据量大、类别数多的场景。CF由N（样本数）、LS（线性求和）、SS（平方和）组成，用于概括簇信息。BIRCH通过调整参数能处理离群点和内存限制，但对高维数据和非凸簇效果不佳。

摘要由CSDN通过智能技术生成

BIRCH，Balanced Iterative Reducing and Clustering Using Hierarchies，翻译过来就是“利用层次方法的平衡迭代规约和聚类“，全称非常复杂。

1、birch概述

简单来说，BIRCH 算法利用了一个树结构来帮助我们快速的聚类，这个特殊的树结构，就是我们后面要详细介绍的聚类特征树（CF-tree）。
可以说只要构造好了CF-树，BIRCH算法也就完成了。BIRCH算法比较适合于数据量大，类别数K也比较多的情况。它运行速度很快，只需要单遍扫描数据集就能进行聚类
该算法笼统的说，可以分为两步：
（1）扫描数据库，建立一棵存放于内存的 CF-Tree，它可以被看作数据的多层压缩，试图保留数据的内在聚类结构；
（2）采用某个选定的聚类算法，如 K-means或者凝聚算法，对CF树的叶节点进行聚类，把稀疏的簇当作离群点删除，而把更稠密的簇合并为更大的簇。

2、概念准备

BIRCH算法利用了一个树结构来帮助我们快速的聚类，这个数结构类似于平衡B+树，一般将它称之为聚类特征树(Clustering Feature Tree，简称CF Tree)。这颗树的每一个节点是由若干个聚类特征(Clustering Feature，简称CF)组成。从下图我们可以看看聚类特征树是什么样子的：每个节点包括叶子节点都有若干个CF，而内部节点的CF有指向孩子节点的指针，所有的叶子节点用一个双向链表链接起来。