数据流聚类算法

最新推荐文章于 2024-01-11 08:57:21 发布

JasonStudy

最新推荐文章于 2024-01-11 08:57:21 发布

阅读量5.9k

点赞数 9

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDN_wujian/article/details/84267845

数据流聚类算法主要用于处理海量、时序、快速变化的流数据。它面临着存储限制、单次扫描、持续变化等挑战。算法包括基于划分的STREAM、基于层次的CluStream、基于密度的DenStream和基于网格的D-Stream等，各自有其优缺点。例如，CluStream采用微聚类和宏聚类两阶段处理，提供不同时间粒度的聚类结果，而DenStream关注任意形状数据流和孤立点检测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.数据流

数据流的产生：实时监控系统、气象卫星遥感、网络通信量监测和电力供应网等

数据流的特点：海量的（massive）、时序的（temporally ordered）、快速变化的和潜在无限、高维的（potentially infinite）。

数据流挖掘的特点---挑战：

（a）数据是海量的，不可能在内存及硬盘上存储整个流数据集。

（b）单次线性扫描（单遍扫描）（single pass）的过程；数据元素只能按其流入顺序依次读取一次，随机访问是不现实的。

（c）数据流是持续变化的，所以不可能看到数据流的中的每一个数据元素（data point），我们只能通过分析部分数据元素来做出决策。

（d）大多数应用要求及时响应，对时间复杂度、空间复杂度要求很高，并且挖掘应该是一个连续、在线的过程。

（e）数据流往往是高维的（High-Dimensional），不同的领域的数据流挖掘面临的挑战也不一样。

（f）时间局部性（temporal locality），过去的历史数据或许与将来的关系越来越小，只与当前时间点很相关

（g）可扩展性（scalability）

所以：数据流算法经常采用精度换时间的方法,尽量在对数据的一次访问中获得较优的解.一般来说,数据流算法是不可回溯的;其次,数据流算法有很多特点,一些数据库应用中常用的操作在数据流中都是不可行的.如,Sort,Max,Count 等操作。

1.2数据流模型

数据流中的数据项 x₁ , …, x_i, …, x_n 依次按下标顺序到达 ,它们描述了一个信号 A。

1.2.1按 x_i描述信号 A的方式 ,数据流模型可分为以下几类:

(1)时序( Time Series)模型:A [ i ] = x_i ,用来描述时间序列数据。此时 ,数据流中的每个数据项都代表一个独立的信号。

(2)现金登记 (Cash Register)模型:令 x_i = ( j,I_i) ,且 Ii≥0,则 Ai [ j ] =A_i-1 [ j ] + I_i。此时 ,数据流中的多个数据项增量式地表达一个 A [ j ]。

(3)十字转门( Turnstile)模型:令 x_i= ( j,U_i) ,则Ai[ j ] =A_{i -1} [ j ] +U_i。其中 , U_i可为正数 ,也可为负数。此时 ,数据流中的多个数据项表达一个 A [ j ]。A[ j ]随着数据的流入 ,可能会增加 ,也可能会减小。

1.2.2按照算法处理数据流时所采用的时序范围 ,数据流模型可分为以下几类:

(1)快照模型 ( Snapshot Model) :处理数据的范围限制在两个预定义的时间戳之间。

(2)界标模型 (Landmark Model) :处理数据的范围从某一个已知的初始时间点到当前时间点为止。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。