BIRCH算法

BIRCH算法是一种迭代归约和层次聚类方法,通过建立聚类特征树(CF树)来节省存储空间和减少IO操作。核心概念是聚类特征CF,由数据点个数N、线性总和LS和方差总和SS组成。算法流程包括数据点的逐个添加和CF树的分裂。优点在于节省空间、速度快,但缺点是结果受数据插入顺序影响,对非球状簇和高维数据聚类效果不佳。
摘要由CSDN通过智能技术生成

概念

BIRCH算法的全称是Balanced Iterative Reducing and Clustering Using Hierarchies,即利用层次方法的迭代归约和聚类。它的主要思想是建立一棵B树,原始数据存放在叶子节点中,并根据聚类个数和其它参数的设置放在不同的叶子节点中。

聚类特征CF

聚类特征CF是BIRCH算法最核心的概念,它是多个数据点的结合表示,是一个三元组 (N,LS,SS) ,其中 N 代表数据点的个数, LS 代表这N个数据点的线性和, SS 代表这N个数据点的方差和。
比如有3个点 (1,2,3)(4,5,6)(7,8,9) ,那么

N=3LS=(1+4+7,2+5+8,3+6+9)=(12,15,18)SS=(1+16+49,4+25+64,9+36
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值