机器学习之经典算法(十六) Birch算法

本文介绍了BIRCH(平衡迭代规约和聚类使用层次)算法,这是一种1996年提出的聚类方法,通过聚类特征(CF)树进行数据分簇。算法分为四个阶段,特别适合球形数据。BIRCH的CF由样本点数量N、特征维度和向量LS及平方和SS组成。在sklearn中,Birch类可用于聚类,主要参数包括n_clusters、threshold和branches_factor。文章提供了代码示例展示如何使用Birch进行数据分簇并绘制结果。
摘要由CSDN通过智能技术生成

    (一)  Birch算法简介:

    BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)全称是:利用层次方法的平衡迭代规约和聚类。BIRCH算法是1996年由Tian Zhang提出来的。Birch算法就是通过聚类特征(CF)形成一个聚类特征树,root层的CF个数就是聚类个数。

      整个算法实现共分为4个阶段:

    1.  扫描所有数据,建立初始化的CF树,把稠密数据分成簇,稀疏数据作为孤立点对待。

    2.  这个阶段是可选的,阶段3的全局或半全局聚类算法有着输入范围的要求,以达到速度与质量的要求,所以此阶段在阶段1的基础上,建立一个更小的CF树。

    3.  补救由于输入顺序和页面大小带来的分裂,使用全局/半全局算法对全部叶节点进行聚类。

    4.  这个阶段也是可选的,把阶段3的中心点作为种子,将数据点重新分配到最近的种子上,保证重复数据分到同一个簇中,同时添加簇标签。

    算法缺点:由于使用半径和直径概念,特别适用于球形数据的聚类(可以在聚类前进行样本绘图观察后选择该算法)。

    聚类特征(CF):每一个CF都是一个三元组,可以用(N,LS,SS)表示。其中N代表了这个CF中拥有的样本点的数量;LS代表了这个CF中拥有的样本点各特征维度的和向量,SS代表了这个CF中拥有的样本点各特征维度的平方和。

    比如:CF中含有N=5个点,以两维样本点值为:(3,4)、(2,6)、(4,5)、(4,7)、(3,8)。

    然后计算:

        LS=(3+2+4+4&

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值