流聚类算法之CluStream

最新推荐文章于 2025-05-31 19:23:21 发布

向、向向日葵

最新推荐文章于 2025-05-31 19:23:21 发布

阅读量3k

点赞数

分类专栏：流聚类文章标签：算法聚类大数据

本文链接：https://blog.csdn.net/lshhsllsh/article/details/121537879

版权

流聚类专栏收录该内容

9 篇文章

订阅专栏

CluStream

前言
一、CluStream算法的切入点
二、CluStream算法核心思想
三、CluStream算法的两阶段
- 3.1 在线阶段
- 3.2 离线阶段
CluStream算法的缺点
总结

前言

本文简要介绍了数据流聚类算法中的CluStream算法，从算法的切入点、算法核心思想、算法的两阶段流程以及缺点进行阐述。

一、CluStream算法的切入点

（1）可以有效的存储在连续数据流中的摘要信息的性质是什么？

（2）摘要信息什么时候被存储在磁盘上？

（3）如何使用周期的数据在用户指定的时间范围内提供聚类的结果？

二、CluStream算法核心思想

对于一个d维的数据集x_i1,x_i2,…,x_in ,并且带有时间戳T_i1,T_i2,…,T_in，在磁盘中存储的是关键集群的统计信息：
在这里插入图片描述
该信息具有可加性，方便在用户需要某一时间段的聚类结果时，进行操作；

微簇存储在流中的特定时刻叫做快照。但是不能将每一时刻的快照都存储下来，因此引入了加粗样式，并且将快照存储在不同的粒度级别上。快照被分为不同的顺序，从1到log(T)，每一个粒度存储的快照数目为(2^α+1),所以在时间T范围内，存储的最大的快照的数目为(2^α+1)log(T)。
在这里插入图片描述