1 引言
事情的起因是有朋友告诉我最近有KDD Cup 2021的比赛。为了凑个热闹,也为了刷点经验,我们准备合伙参加(当个炮灰)。
有三道赛题,时间序列异常检测、图相关的和智慧城市。看上去最正常的时间序列异常检测当仁不让的成为了我们的选择。
2 题目要求
竞赛要求我们检测时间序列中的异常点。每个时间序列有且仅有一个异常点。题目给出了异常点所在的区间,要求我们给出异常点所在的位置。
example
评估时会考察我们给出的位置前后100个点的范围内是否包含真正的异常点。序列长度从几千到几十万个观测点不等。数据的来源可能有心电图、传感器数据等具有明显周期性的数据。目的是想让我们找到有效的算法,自动化地监测大规模的此类数据。
竞赛分为两期,第一期(PhaseI)有25个时间序列,用于调试算法。第二期(PhaseII)有250个序列,用于评估比赛成绩。
3 数据分析
我们选取一个时间序列瞧一瞧。
timeseries
可以看到这个序列具有很