BIRCH详解

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)是一种可伸缩聚类算法,通过构建聚类特征树(CF-Tree)来处理大规模数据。算法包括扫描数据、生成CF-Tree、全局聚类和结果细化等步骤。CF由N、LS和SS组成,用于表征聚类特征。CF-Tree的构建过程中,通过调整阈值B、L、T控制树的规模。BIRCH算法适用于内存有限的情况,通过迭代优化提供聚类效果。
摘要由CSDN通过智能技术生成

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)详解

第三十次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为可伸缩聚类(Scalable Clustering)算法的第三篇,主要是对BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)算法进行详细介绍,其他可伸缩聚类算法的链接可以从《可伸缩聚类算法综述(可伸缩聚类算法开篇)》这篇文章中找到。

CF和CF-Tree

  聚类特征(Clustering Feature,简称CF)是一种用来表征聚类特征的数据格式,他由以下三部分组成:簇中所含样本点的个数(用 N N N来表示)、簇中所有点的各项属性的线性和(用 L S LS LS来表示)以及簇中所有点的各项属性的平方和(用 S S SS SS来表示),假设存在簇 C = { ( 1 , 2 ) , ( 2 , 1 ) , ( 1 , 1 ) , ( 2 , 2 ) } C=\{\left(1,2\right),\left(2,1\right),\left(1,1\right),\left(2,2\right)\} C={ (1,2),(2,1),(1,1),(2,2)},那么 N = 4 N=4 N=4 L S = ( { 1 + 2 + 1 + 2 } , { 2 + 1 + 1

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值