前言
前文在 流聚类之CluStream 中介绍了CluStream算法的相关内容,本文简单总结了有关流聚类算法DenStream的相关知识,从算法提出的目的以及两阶段过程进行阐述。
一、DenStream 算法提出的目的
对Clustream算法进行改进,引入了时间衰减函数来对不同时间的数据点进行加权;
二、DenStream的两阶段
2.1 在线阶段
➢维护P微簇以及O微簇(存放在一个单独的内存空间中-离群值缓冲区);
➢首先根据DBSCAN算法初始化生成P微簇,当新的数据点到来时,试图将数据点合并到其最近的P微簇中;
➢否则,将数据点合并到其最近的O微簇中,之后检查该O微簇的权重,是否高于阈值,若高于阈值,将其从缓冲区移除成为一个新P微簇;
➢否则,将其创造为一个新的O微簇并放入缓冲区中。
➢对于现在的P微簇,如果迟迟没有数据点加入到其中,该簇的权重会逐渐衰减,如果权重低于阈值,该簇会被删除。DenStream算法会定期检查P/O微簇的权重,若O微簇的权重低于成为O微簇的下限,也会将不符合条件的微簇删除。
2.2 离线阶段
得到用户的请求,对已有的P微簇进行聚类从而得到最终的聚类结果;
总结
前文在 流聚类之CluStream 中介绍了CluStream算法的相关内容,本文简单总结了有关流聚类算法DenStream的相关知识,从算法提出的目的以及两阶段过程进行了阐述,如果有不足之处或者表述不当的地方欢迎大家指正。