摘要
本文提出了一个新颖的时间序列聚类算法k-shape,该算法的核心是迭代增强过程,可以生成同质且较好分离的聚类。该算法采用标准的互相关距离衡量方法,基于此距离衡量方法的特性,提出了一个计算簇心的方法,在每一次迭代中都用它来更新时间序列的聚类分配。作者通过大量和具有最好距离衡量方法的划分聚类,分层聚类,谱聚类比较的实验证明k-shape的鲁棒性。总之,k-shape是准确、高效的时间序列算法。
1.介绍
多数时间序列分析方法,包括聚类算法,依赖于距离衡量的选择,当比较两个序列的时候关键的问题是如何处理扭曲问题,这也是时间序列的特征。理想情况下,基于shape的聚类算法基于shape相似性将时间序列划分到同一聚类中,而不是幅度和阶段的不同。
由于时间序列的特殊行,更多研究的关注点是距离衡量的创新而不是聚类算法的创新,因此,时间序列聚类算法主要依赖于经典的聚类算法要么将其中的距离衡量换成适合时间序列的,要么将时间序列转换成合适数据从而现有的算法可以直接使用。但是聚类算法的选择影响两个方面:(i)准确度,因为每个算法衡量同质和分离的方法不同。(ii)效率,因为方法之间的计算复杂度不同。
现有的基于shape的方法主要有两个缺陷:(i)这些方法无法扩展到大数据集上,因为这些方法计算或者距离衡量耗时。(ii)现有方法的有效性局限于特定的领域或者数据集。而且这些算法没有和经典的如划分聚类等进行比较。
本文提出的k-shape方法和k-means有些相似但是有明显的不同,k-shape方法计算簇心的方式以及距离衡量和k-means不同,k-shape