数据聚类: 层次聚类 hierarchical clustering,K-means, BFR, Cure algorithm, DBSCAN

本文详细介绍了数据聚类的几种算法,包括层次聚类(hierarchical clustering)、K-means聚类及其深入理解、BFR算法(针对高维空间内存问题的K-means改进)、CURE算法(可处理任意形状数据的聚类方法)以及DBSCAN聚类算法,帮助读者理解各种聚类方法的原理和应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

层次聚类 hierarchical clustering

层次聚类

K-means聚类

深入理解K-Means聚类算法

BFR

K-means方法的改进算法。目的是为了解决在高维欧氏空间中对数据进行聚类时内存不够的问题。本算法可以用在分布式系统中,每次计算机只加载一部分数据,分多次加载。BFR算法同样需要在最开始的时候规定聚类质心数K。方法可以是先用层次聚类法确定最佳K值。

BFR算法使用前提:必须满足数据是以质心为期望的正态分布,且数据的不同维度互相独立。

首先计算机初始化三个集合:

  1. 废弃集Discard Set,已经形成了簇(cluster), 已经分配给某个质心。废弃集只保留簇的简单概要信息,而将概要代表的点废弃了。
  2. 压缩集Compression Set,已经聚合了的点集,但是尚未分配给某个质心。压缩集所代表的的点也被废弃,只保留点集的概要信息。压缩集通常被称为迷你簇(minicluster)
  3. 留存集Retained Set,用于存储离散的尚未被聚合的点。

压缩集与废弃集中点集的表现形式
在这里插入图片描述

算法步骤:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值