机器学习之经典算法（十六） Birch算法

最新推荐文章于 2025-01-02 16:20:45 发布

AI专家

最新推荐文章于 2025-01-02 16:20:45 发布

阅读量1.2w

点赞数 5

分类专栏：机器之心修炼之路

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42039090/article/details/80711423

版权

本文介绍了BIRCH（平衡迭代规约和聚类使用层次）算法，这是一种1996年提出的聚类方法，通过聚类特征(CF)树进行数据分簇。算法分为四个阶段，特别适合球形数据。BIRCH的CF由样本点数量N、特征维度和向量LS及平方和SS组成。在sklearn中，Birch类可用于聚类，主要参数包括n_clusters、threshold和branches_factor。文章提供了代码示例展示如何使用Birch进行数据分簇并绘制结果。

摘要由CSDN通过智能技术生成

（一） Birch算法简介：

BIRCH（Balanced Iterative Reducing and Clustering Using Hierarchies）全称是：利用层次方法的平衡迭代规约和聚类。BIRCH算法是1996年由Tian Zhang提出来的。Birch算法就是通过聚类特征(CF)形成一个聚类特征树，root层的CF个数就是聚类个数。

整个算法实现共分为4个阶段：

1. 扫描所有数据，建立初始化的CF树，把稠密数据分成簇，稀疏数据作为孤立点对待。

2. 这个阶段是可选的，阶段3的全局或半全局聚类算法有着输入范围的要求，以达到速度与质量的要求，所以此阶段在阶段1的基础上，建立一个更小的CF树。

3. 补救由于输入顺序和页面大小带来的分裂，使用全局/半全局算法对全部叶节点进行聚类。

4. 这个阶段也是可选的，把阶段3的中心点作为种子，将数据点重新分配到最近的种子上，保证重复数据分到同一个簇中，同时添加簇标签。

算法缺点：由于使用半径和直径概念，特别适用于球形数据的聚类（可以在聚类前进行样本绘图观察后选择该算法）。

聚类特征(CF)：每一个CF都是一个三元组，可以用（N，LS，SS）表示。其中N代表了这个CF中拥有的样本点的数量；LS代表了这个CF中拥有的样本点各特征维度的和向量，SS代表了这个CF中拥有的样本点各特征维度的平方和。

比如：CF中含有N=5个点，以两维样本点值为：（3，4）、（2，6）、（4，5）、（4，7）、（3，8）。

然后计算：

LS=(3+2+4+4&

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。