利用LSTM和quantile regression（分位数回归）的异常行为检测

最新推荐文章于 2024-07-17 10:45:14 发布

拉风小宇

最新推荐文章于 2024-07-17 10:45:14 发布

阅读量6.6k

点赞数 10

分类专栏：机器学习文章标签： lstm AD 神经网络

原文链接：https://towardsdatascience.com/anomaly-detection-with-lstm-in-keras-8d8d7e50ab1b

版权

机器学习专栏收录该内容

12 篇文章 7 订阅

订阅专栏

本文翻译自：Anomaly Detection with LSTM in Keras -- Marco Cerliani

“异常行为”（anomaly）的定义在不同的上下文中会有区别。在这种混乱中，我们可以知道：异常行为与我们感关注的领域密切相关。

异常检测在商业中是非常有用的，并且检测的难度取决于应用领域。如果遇到涉及人们活动的异常检测问题（例如对销售或需求的预测），则可以利用人们行为的基本假设，得到更有效的解决方案。

这正是我们在本文中所做的。我们尝试预测在不同时期纽约市的出租车需求。我们对人们的行为做了简单而重要的假设，可以帮助我们找到一种简单的方法来预测异常。所有麻烦的工作都是由Keras开发的LSTM进行的，它可以同时做预测和异常检测！

数据集

数据集是从Numenta社区获得的。我选择了纽约出租车数据集。此数据集每半小时观察一次，以显示2014–07–01至2015–01–31的纽约出租车需求

在此期间，根据与正常行为的偏离，存在5个异常值。它们分别在纽约马拉松，感恩节，圣诞节，元旦和暴风雪期间发生。

我们的目的是提前发现这些异常现象！

在查看数据时，我们注意到的第一个考虑因素是存在明显的每日模式（白天需求高于夜间）。出租车需求似乎也受到每周趋势的驱动：在一周的某些天，出租车需求高于其他需求。下面我们简单地证明了这种自相关关系（autocorrelation）

timeLags = np.arange(1,10*48*7)
autoCorr = [df.value.autocorr(lag=dt) for dt in timeLags]

plt.figure(figsize=(19,8))
plt.plot(1.0/(48*7)*timeLags, autoCorr)
plt.xlabel('time lag [weeks]')
plt.ylabel('correlation coeff', fontsize=12)

现在，我们需要记录这些重要的行为以进行进一步的分析。我计算并存储每个星期几每个小时的平均值。当我们将数据标准化以建立模型，减少每种时间相关性时，这将会很有用（我将计算前5000个观测值的均值，这将成为我们将来的训练集）。

### CREATE WEEKDAY FEATURE AND COMPUTE THE MEAN FOR WEEKDAYS AT EVERY HOURS ###

df['weekday'] = df.timestamp.dt.weekday
df['weekday_hour'] = df.weekday.astype(str) +' '+ df.H.astype(str)
df['m_weekday'] = df.weekday_hour.replace(df[:5000].groupby('weekday_hour')['value'].mean().to_dict())

模型

我们需要一种可以提前发现异常值的策略。为此，我们决定关注出租车需求预测。我们希望开发一种模型，该模型能够在考虑不确定性的情况下预测需求。一种方法是发展分位数回归（quantile predictions）。我们专注于极值的预测：较低（第10个分位数），较高（第90个分位数）和经典第50个分位数。计算第90和第10分位数时，我们涵盖了现实中可以假设的最可能的值（绝大部分的值~80%的值应该在这个范围内出现）。这个范围的宽度（即置信区间Confidence Interval）可以很深；我们知道，当我们的模型能够确定未来时，它会很小；而当我们的模型无法看到关注领域中的重要变化时，它会变得非常大。我们利用这种行为，让我们的模型对出租车需求预测领域中的异常值检测进行了说明。当我们的模型对未来有把握时，我们期望会得到一个很小的间隔（置信区间很小），因为我们的模型认为他对预测结果很确定（under control）。另一方面，我们认为当间隔变大时会出现异常。因为我们的模型没有经过训练以处理这种可能导致异常的情况。（异常数值见到的不确定->置信区间变宽）

我们在Keras中构建一个简单的LSTM神经网络，可以神奇般地实现上面的过程。模型将接收过去的观察作为输入。我们调整了数据大小，以每日窗口大小作为LSTM的输入大小（48个观测值：每半小时一个观测值）。如上文所述，当我们生成数据时，我们进行了数据转换和标准化，减去了每日平均小时值，以便将观察结果视为其每日平均小时值的对数。我们以半小时轮班（half-hour shifting）的方式构建目标变量（我们希望预测接下来三十分钟的需求值，一步一步预测，即walk forward）。

inputs = Input(shape=(X_train.shape[1], X_train.shape[2]))
lstm = Bidirectional(LSTM(64, return_sequences=True, dropout=0.3))(inputs, training = True)
lstm = Bidirectional(LSTM(16, return_sequences=False, dropout=0.3))(lstm, training = True)
dense = Dense(50)(lstm)
out10 = Dense(1)(dense)
out50 = Dense(1)(dense)
out90 = Dense(1)(dense)
model = Model(inputs, [out10,out50,out90])

在Keras中进行分位数回归非常简单（我从这篇文章中学到了灵感）。我们可以很容易地自定义分位数损失函数，该函数根据分位数以及误差是正的（实际>预测）还是负的（实际<预测）对误差进行惩罚。我们的网络有3个输出和3个损失，每个输出和损失对应一个分位数。

def q_loss(q,y,f):
    e = (y-f)
    return K.mean(K.maximum(q*e, (q-1)*e), axis=-1)
losses = [lambda y,f: q_loss(0.1,y,f), lambda y,f: q_loss(0.5,y,f), lambda y,f: q_loss(0.9,y,f)]
model.compile(loss=losses, optimizer='adam', loss_weights = [0.3,0.3,0.3])

交叉验证

在Keras中处理神经网络时，比较烦银的问题之一是由于权重初始化而导致的结果不确定性。我们的例子也似乎遭受这种问题的困扰。比如计算分位数预测时，我们不允许分位数重叠！为了避免这种陷阱，我在预测阶段使用了bootstrapping：以及利用dropout在训练中，将预测迭代100次，将其存储起来，最后计算出所需的分位数（这种聪明的技术也在这篇文章中）

pred_10, pred_50, pred_90 = [], [], []
NN = K.function([model.layers[0].input, K.learning_phase()], 
                [model.layers[-3].output,
                 model.layers[-2].output,
                 model.layers[-1].output])
for i in tqdm.tqdm(range(0,100)):
    predd = NN([X_test, 0.5])
    pred_10.append(predd[0])
    pred_50.append(predd[1])
    pred_90.append(predd[2])

下面以图形方式说明了此过程，只介绍了一部分预测。给定分位数bootstraps，我们计算了它们的汇总度量（红线），避免了交叉。

q90预测bootstraps（青色）；q50预测bootstraps（蓝色）；q10预测bootstraps（绿色）

结果

正如我之前所说的，我使用前5000个观察值进行训练，其余（大约5000个）观察值用于测试。

我们的模型在预测50位数的出租车需求方面达到了出色的性能。均方根对数误差（Mean Squared Log Error）约为0.055，是一个了不起的结果！这意味着LSTM网络能够理解出租车需求的基本规则。因此，我们的异常检测方法听起来很棒……我们计算了第90个分位数预测与第10个分位数预测之间的差值，然后看看发生了什么。