流聚类之DenStream


前言

前文在 流聚类之CluStream 中介绍了CluStream算法的相关内容,本文简单总结了有关流聚类算法DenStream的相关知识,从算法提出的目的以及两阶段过程进行阐述。


一、DenStream 算法提出的目的

对Clustream算法进行改进,引入了时间衰减函数来对不同时间的数据点进行加权;

二、DenStream的两阶段

2.1 在线阶段

➢维护P微簇以及O微簇(存放在一个单独的内存空间中-离群值缓冲区);

➢首先根据DBSCAN算法初始化生成P微簇,当新的数据点到来时,试图将数据点合并到其最近的P微簇中;

➢否则,将数据点合并到其最近的O微簇中,之后检查该O微簇的权重,是否高于阈值,若高于阈值,将其从缓冲区移除成为一个新P微簇;

➢否则,将其创造为一个新的O微簇并放入缓冲区中。

➢对于现在的P微簇,如果迟迟没有数据点加入到其中,该簇的权重会逐渐衰减,如果权重低于阈值,该簇会被删除。DenStream算法会定期检查P/O微簇的权重,若O微簇的权重低于成为O微簇的下限,也会将不符合条件的微簇删除。

2.2 离线阶段

得到用户的请求,对已有的P微簇进行聚类从而得到最终的聚类结果;


总结

  前文在 流聚类之CluStream 中介绍了CluStream算法的相关内容,本文简单总结了有关流聚类算法DenStream的相关知识,从算法提出的目的以及两阶段过程进行了阐述,如果有不足之处或者表述不当的地方欢迎大家指正

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
streamDM,是由华为诺亚方舟实验室开源的使用 Spark Streaming 挖掘大数据的开源软件。大数据学习大数据学习(Big Data stream learning)比批量或离线学习更富有挑战性,因为数据在动的过程中不太可能保持同一种分布。而且,数据中的每一个样本只能被处理一次,否则它们就需要占用内存进行总结,同时该学习算法也必须非常高效。Spark StreamingSpark Streaming 是核心 Spark API 的一个扩展,它能让多个源的数据处理成为可能。Spark 是一个可扩展可编程的框架,用于大规模分布式数据集(也称为弹性分布式数据集(RDD))处理。Spark Streaming 接收输入的数据后将数据分批,再由 Spark 引擎处理,生成结果。Spark Streaming 数据被编成一个 DStreams 序列,内在地表示成一个 RDD 序列。包含以下方法:在第一次开放的 StreamDM 中,我们部署了:SGD Learner and PerceptronNaive BayesCluStreamHoeffding Decision TreesBaggingStream KM 我们部署了以下数据生成器:HyperplaneGeneratorRandomTreeGeneratorRandomRBFGeneratorRandomRBFEventsGenerator我们部署了 SampleDataWriter:它可以调取数据生成器创建样本数据用于模拟和测试。后面我们将计划开放:分类:随机森林回归:Hoeffding 回归树,Bagging,随机森林聚类:Clustree, DenStreamFrequent Itemset Miner:IncMine, IncSecMine下一步为了快速介绍一下 StreamDM 的运行,请打开 Getting Started 文件。StreamDM Programming Guide 展示了 StreamDM 的细节。完整的 API 文档,可以参考这里:http://huawei-noah.github.io/streamDM/api/index.html。部分内容转载自机器之心 标签:streamDM
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值