时序异常检测--指数平滑检测异常点

原创已于 2022-07-13 11:03:40 修改 · 2.5k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2021-09-03 12:10:32 首次发布

AIOps 专栏收录该内容

32 篇文章

订阅专栏

本文探讨了时间序列异常检测的重要性和多种方法，包括STL分解、加性异常、时间变化、趋势和水平转移。介绍了CART、ARIMA、指数平滑法（如EWMA和Holt-Winters模型）以及神经网络在异常检测中的应用。这些方法各有优缺点，适用于不同类型的异常和时间序列数据。例如，STL适合季节性数据，CART和神经网络能处理复杂模式，而ARIMA则适用于趋势和周期性数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

时间序列异常检测：寻找相对于某个标准或常用信号的异常数据点。异常类型有多种，但只关注从业务角度来看最重要的异常类型，例如意外的峰值、下降、趋势变化和水平转移。

例如：网站跟踪用户，发现用户在短时间内增长极快，像一个峰值。这类异常被称为加性异常。当服务器宕机，短时间内会有零或很低的用户数量，这类异常通常被归类为时间变化。

异常检测算法通常要么在每个时间点上标记异常 / 非异常，要么预测某时间点的信号，测试这个时间点的值是否与预测值有足够的差异，从而将其视为异常。使用第二种方法，能够可视化一个置信区间，有助于理解为什么会出现异常并验证。

STL 分解：将时间序列数据表示成三个要素：季节性、趋势、残差。分析残差的背离程度，引入阈值作为预警依据。可以使用绝对中位差来作为阈值。优点是方法简单，对峰值异常较敏感，能结合滑动平均来检测周期性的异常。缺点是需要进行调参，不能检测剧烈变动的指标。

从上到下:利用STL分解检索原始时间序列、季节、趋势和残差部分。

顾名思义，它适用于季节性时间序列，这是最流行的情况。如果对残差进行分析并引入一定的阈值，就可以得到异常检测算法。使用中位数绝对偏差来获得更健壮的异常检测。

方法实现：mirrors / zrnsm / pyculiarity · CODE CHINA；

使用广义极端学生氏偏差测试检查是否一个残差点是一个离群点。

优点：简单、健壮。可处理许多不同情况，且所有的异常可以直观地解释。

主要用于检测加性异常值。检测电平变化，可以分析一些滚动平均信号而不是原始信号。

缺点：调整选项方面的僵化。能做的就是利用显著性水平调整置信区间。
最典型的情况是信号的特性发生了巨大的变化。例如，正在跟踪对公众关闭的网站上的用户，然后突然打开，此时应该分别跟踪在启动期之前和之后出现的异常。

分类与回归树：最健壮和最有效的机器学习技术之一；分类和回归树算法有两种使用方式：一是准备好已标记过异常点的数据集，进行监督型的机器学习；另一种让 CART 算法自动寻找数据集中的模式，预测异常点的置信区间，常用xgboost，可用各种特征学习和预测，计算量会因此上升。

实际时间序列(绿色)，CART模型预测的时间序列(蓝色)，以及检测到偏离预测时间序列的异常。

优点：不受信号结构的任何约束，可以引入许多特征参数来执行学习并获得复杂的模型。

缺点：越多的特征会越快影响计算性能，此时需要选择特性。

ARIMA：方法简单且强大，可预测信号并发现异常，核心是从过去的几个点产生下一个点的预测加上一些随机变量，通常是白噪声，未来的预测点会产生新的点。对预测范围的明显影响是信号变得更平滑。难点在于要选择差异的数量、自回归的数量和预测误差系数。每次处理一个新信号时，都要构建一个新的ARIMA模型。另一个问题是信号应该是平稳的差分后，意味着信号不依赖时间(重要的限制)。异常检测利用离群点建立调整后的信号模型，利用 t 统计量检验模型的拟合是否优于原始模型。