本篇文稿,主要介绍2018年清华大学发表的关于快速时序聚类的文章《Robust and Rapid Clustering of KPIs for Large-Scale Anomaly Detection》的具体算法思路和整体流程。
问题复杂度
KPI本质上是一种时序数据,对KPI的聚类主要面临两种挑战:
- KPI曲线上的噪声、异常、相位差和振幅(量纲)差异通常会改变KPI曲线的形态,从而影响相似性的判别,难以使传统方法实现快速准确的聚类;
- 一条KPI曲线通常包括上万个数据点,时间跨度从几天到数周,从而完整的刻画了其曲线模式。因此,KPI曲线通常具有较高的维度。具体的数据形态如下所示:
- 噪声和异常:曲线上与正常值不符的波动
- 振幅差异:KPI曲线可能具有不同量级的振幅
- 相位差异:两条KPI曲线可能具有不同量级的振幅