进化聚类算法—实验与结论

实验

本节将通过不同的参数设置来研究我们的算法,我们展示了如何同时保持非常高的快照质量并显著缩短与历史的距离。我们使用了flickr.com的图像标签数据。每周生成一个标签图片的二部图,如果两个标记同一时刻出现在同一张照片上,我们认为他们是相似额。我们的目标是将进化聚类算法应用在这个标签空间上。

k-means clustering over time.我们选择了在Flickr上出现的最频繁的5000个标签来研究他们的聚类。我们令k=10,t=0...67,和几个不同的cp值。当cp=0时与独立对每个快照应用k-means完全相同。但是以上一步找到的聚类作为开始种子,换句话说,它是“增量k-means”。

图1展示了实验结果。我们观察到以下情况:快照质量和与历史聚类的距离都随着cp的增加而减少。事实上增量k-means(cp=0)给出了最优快照质量和最差的历史距离。这点是完全可以预期的,因为每一个独立的快照都应该能提供最佳质量,但代价是与历史保持很远的距离。而且,即使cp稍微减少,也会显著减少与历史的距离。比如,cp值为0.125,k-means很好的融入到历史,这导致与历史距离显著下降。

图1:k-means clusters over time:随着cp的增加,快照质量和与历史的距离在减少。cp=0时是“增量k-means”。
Agglomerative clustering over time.我们从经验上发现,Linear-Both和Linear-Internal都明显优于Linear-External and Squared。在图2中我们划出了top2000标签的Linear-Both和Linear-Internal的表现。对于所有的cp值来说,Linear-Both都比Linear-Internal更加平滑。这表明最Linear-Both的额外处理提高了算法的聚类跟踪能力。还请注意,对于一些时间步,与历史的距离有着非常高的值。我们怀疑这是由于在这段时间里的活动增加;就是Flickr“took off”的时候。值得注意的是峰值也出现在图1b中,这增强了数据是人工制品的观点。

Effect of cp on snapshot quality.图3(a,b)展示了快照质量对cp的依赖关系。在t时刻的快照质量值通过cp=0对应的值标准化,以消除数据本身人工造成影响。我们观察到快照质量与cp成反比,cp越高,分配给历史距离的权重就越多,因此快照质量的性能就越差
然而,尽管快照质量线性下降,并且作为k-means的cp函数表现很好,但对于凝聚聚类情况则不同。快照的质量在包含历史记录之后会受到一定的影响,但是之后的性能下降会比较平缓。这表明k-means在不影响快照质量的情况下可以容纳更多的历史记录。

Effect of cp on distance from history. 图3(c,d)展示了历史距离对变化参数cp的依赖关系。y轴值由cp=0在该时间步上对应的值规范化,来消除任何的人为影响(remove data artifacts)。我们看到,与历史距离和cp成反比,即随着cp的增加,我们算法对于距离的权重越来越大,与提高快照质量相比,较少与历史的距离相对来说变得重要。因此,高的cp值导致低的历史距离。

当cp值越小k-means越接近历史,凝聚聚类的情况更加明显。即使cp值为0.05,也能显著缩短与历史的距离,这说明凝聚聚类算法容易受到历史的影响。
 

结论

我们考虑了数据随时间变化的聚类问题,提出了一种进化聚类框架。这个框架要求任何时间点上的聚类都应该是高质量的,同时确保聚类不会随着时间推移而发生较大的变化。我们提出了该框架的两个实例:k-means和凝聚层次聚类。我们在Flickr标签上的实验表明,这些算法具有所需要的属性——获得一个平衡当前和历史数据的解决方案。

研究将这个框架应用在更多聚类算法中是非常有趣的,研究构造非二叉树和加权树的基于树的聚类算法也很有意义。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值