Evolutionary Spectral Clustering by Incorporating Temporal Smoothness论文整理

之前介绍了06年KDD会议上进化聚类的开创性论文,今天要介绍的就是借鉴其思想的优秀算法中的代表之一《结合时间平滑性的进化谱聚类》。作者Yun Chi等人发布在07年的KDD会议上。

论文题目:《Evolutionary Spectral Clustering by Incorporating Temporal Smoothness》

摘要:进化聚类是一个新兴研究领域,他是比如在Web网页动态聚类和博客内容和聚类数据流等应用的重要基础。在进化聚类中,一个好的聚类结果既要与当前数据很好的拟合,同时又不能与最近的历史有太大的偏差。为了同时实现这两个目标,在聚类质量的度量中集成了时间平滑度度量。在这片论文中,我们提出了两种将时间平滑性纳入进化谱聚类的框架。对于两个框架来说,我们都是从已知的k-means聚类问题中得到的直觉(intuitions)出发,然后针对进化谱聚类问题提出并求解相应的代价函数。我们对进化谱聚类问题的解决方案提供了更稳定、更一致的聚类聚类结果,这些结果对短期噪声不敏感,同时对长期聚类漂移(cluster drifts)具有自适应能力。除此之外,我们证明了我们的方法为相应的进化k-means聚类问题的放松版(relaxed versions)提供了最优解。在一系列的真实和生成数据集上的性能实验表明了我们的进化谱聚类方法提供了对噪声不敏感且适应数据漂移(data drifts)的更健壮的聚类结果(clustering)。

分类:Database Applications——Data mining,Information Search and Retrieval——Information filtering

关键词:Evolutionary Spectral Clustering,Temporal Smoothness,Preserving Cluster Quality,Preserving Cluster Membership,Mining Data Streams

简介:在许多聚类应用中,要聚类的对象特征会随着时间而变化。通常,这些特征变化既包含概念漂移(concept drift)引起的长期趋势,也包含噪声引起的短期变化。比如,在聚类博客站点的博客空间中(例如,用于社区检测),博主的兴趣和友谊网络可能会随着时间缓慢漂移,同时,外部事件可能会触发短期变化。另一个例子是,在一个无处不在的计算环境中,装有GPS和无线连接的运动物体被聚类(例如,用于交通拥堵预测或动物迁移分析)。运动物体的坐标在长期内可以沿一定的路线运动,但由于带宽和传感器精度的限制,其在给定时间的估计坐标可能会发生变化。

在这些应用场景中,待聚类的对象会随着时间演化,这对传统的聚类算法提出了新的挑战。一方面,当前的聚类主要依赖于当前的数据的特征——在非平稳的场景(nonstationary scenarios)中,聚合所有的历史数据特征几乎没有意义。另一方面,当前的聚类结果不应该与历史偏差较大。这是因为在大多数动态应用(dynamic applications)中,我们不希望数据变化太快,因此,我们希望在连续的时间步骤中的聚类结果之间具有一定程度的时间平滑性(temporal smoothness)。

我们用下面的例子来说明这一点。假设我们要将5个博客分为两个集群。图1展示了5个博客在时间t-1和t上的关系图,图上每个顶点代表一个博客,节点之间边上的数字代表相似性(如,连接的数目)。显然,t-1时刻的博客应该用CutⅠ 进行聚类。t时刻的聚类不是很清晰。CutⅡ和CutⅢ对博客进行均等划分。但根据时间平滑性原则,CutⅢ更符合近期历史(t-1时刻)。同样的思想被用于时间序列分析中,移动均线(moving average)经常被用来平滑短期波动。因为类似的短期方差也存在剧聚类应用中,要么是由于数据噪声,要么是因为聚类算法的非鲁棒(non-robust)行为(如,收敛到不同的局部次优模式(locally suboptimal modes)),因此需要新的聚类技术来处理演化对象并获得稳定一致的聚类结果。

本文提出了两种进化谱聚类算法,其中聚类代价函数包含了正则化时间平滑的项。进化聚类首次由Chakrabarti提出,他们提出类进化层次聚类问题和进化k-means聚类问题的启发式解决方案。在本文中,我们将重点研究在更严格的框架下的进化谱聚类算发放。谱聚类算法有着坚实的理论基础并且有着不错的表现。它被成功应用于文档聚类、图像分割、Web/blog聚类等多个领域。谱聚类算法可以看作是解决特定图划分问题,需要对不同的基于图的测度(measures)进行优化。在此基础上,我们利用基于图的度量方法定义了进化谱聚类算法中的代价函数,并得到了相应的(松弛的relaxed)最优解。同时,研究表明,这些图划分问题与k-means聚类问题的不同变化有着密切联系。通过这些联系,我们证明了进化谱聚类作为特例为相应的进化k-means聚类问题提供了解决方案。

总的来说,我们的论文有下面几个主要的贡献:

1.我们提出了两种进化谱聚类的框架,其中时间平滑性被纳入整体聚类质量。据我们所知,我们的框架是谱聚类算法的第一个进化版本。

2.我们得到了放松版本(relaxed)进化谱聚类框架的最优解。因为不放松版本(unrelaxed)是NP-hard问题,我们的解决方案提供了获得最终聚类的实用方法和算法性能的上界。

3.我们还对算法进行了扩展,以处理聚类数量随时间改变和新数据点插入,旧数据点被移除的问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值