基于增强动态对抗训练的鲁棒时空交通预测_基于强化动态对抗训练的鲁棒时空流量预测-CSDN博客

本文链接：https://blog.csdn.net/gao00013/article/details/135286750

KDD2023

摘要

基于机器学习的预测模型通常用于智能交通系统(ITS)中预测交通模式并提供全市范围的服务。然而，大多数现有模型容易受到对抗性攻击，这可能导致不准确的预测和负面后果，如拥塞和延迟。因此，提高这些模型的对抗鲁棒性对ITS至关重要。在本文中，我们提出了一个将对抗性训练纳入时空交通预测任务的新框架。我们证明了为静态域指定的传统对抗性训练方法不能直接应用于流量预测任务，因为它们不能有效地防御动态对抗性攻击。然后，我们提出了一种基于强化学习的方法来学习对抗示例的最优节点选择策略，同时增强了动态攻击防御能力并减少了模型过拟合。此外，我们引入了自知识蒸馏正则化模块，以克服在训练过程中不断变化的对抗节点所导致的“遗忘问题”。我们在两个真实世界的交通数据集上评估了我们的方法，并证明了它比其他基线的优越性。该方法有效地提高了时空交通预测模型的对抗鲁棒性。我们的框架的源代码可从https://github.com/usail-hkust/RDAT获得。

1 介绍

在智能交通系统(ITS)中，基于机器学习的预测模型被广泛用于准确、及时地预测交通模式，为全市提供服务[17,35,38]。然而，这些模型可能会被精心设计的扰动所欺骗，从而导致不准确的交通状况预测[15]。例如，对交通流图的一个小扰动可以刺激机器学习模型预测没有交通堵塞的情况，从而导致不必要的拥堵和延误。图1展示了对抗性攻击对时空预测模型的影响，导致预测出现显著偏差。幸运的是，最近的研究发现，结合防御策略可以有效地提高机器学习模型的对抗鲁棒性[15]。因此，迫切需要研究合适的防御策略来稳定时空预测模型，特别是ITS的时空预测模型。

对抗性训练是一种增强深度神经网络(dnn)对对抗性攻击的鲁棒性的技术，特别是在静态领域，如图像[2,22,25]和图[18,29,41,42]分类。这是通过将对抗性攻击生成的对抗性示例纳入训练过程来实现的。对抗性训练被表述为最小-最大优化问题，其中内部最大化步骤生成对抗性示例，以探索对抗性扰动空间中的最坏情况。这些微小但可察觉的扰动被设计成导致模型做出错误的预测。在外部最小化步骤中，模型暴露于原始输入数据和对抗示例，这些数据用于更新模型并提高其对此类扰动的整体鲁棒性。尽管对抗性训练在静态领域很有效[30]，但在动态领域，对抗性训练对时空交通预测的探索仍然不足。

在本文中，我们揭示了传统的对抗性训练方法在防御时空流量预测任务中的动态对抗性攻击方面的局限性。我们证明了选择和生成对抗性样本的静态策略，

如使用度和PageRank，无法有效防御这些攻击，如图2 (a)所示。首先，我们确定静态方法不能提供足够的防御时空对抗性攻击。此外，我们表明，为所有地理分布式数据源生成对抗性示例也无法有效防御动态攻击，因为较高比例的对抗性节点可能导致过拟合并降低模型性能，如图2 (b)所示。与直觉相反，与较高比例的对抗性节点相比，较低比例的对抗性节点会产生更好的模型性能。此外，我们强调了当对抗节点在训练过程中不断变化时出现的不稳定性问题，导致“遗忘问题”，即模型对更强的攻击强度缺乏鲁棒性。这些观察结果强调了在时空交通预测任务中需要一种有效而稳健的对抗性训练方法。

为了克服上述限制，我们提出了一种将对抗性训练纳入流量预测任务的新框架。我们的方法包括动态选择节点子集作为对抗示例，这不仅减少了过拟合，而且提高了对动态对抗攻击的防御能力。然而，从节点的总集合中选择这个子集的任务是一个具有计算挑战性的问题，被称为np困难。为了解决这个问题，我们提出了一种基于强化学习的方法来学习最优节点选择策略。

具体而言，我们将节点选择问题建模为组合优化问题，并使用基于策略的网络来学习使内部损失最大化的节点选择策略。详细地，我们设计了一个基于时空注意力的策略网络来建模时空地理分布数据。为了评估策略网络生成的解决方案，我们提出了奖励函数的平衡策略，为策略网络提供稳定有效的反馈，并缓解了训练过程中内部损失减少的问题。最终的预训练策略网络可以用作节点选择器。为了克服遗忘问题，我们还引入了一个新的自知识蒸馏正则化模块，用于对抗训练，其中训练当前模型

利用从先前模型对抗性攻击经验中提取的知识。

我们的贡献可以概括如下。1).据我们所知，我们是第一个通过系统地分析如何将对抗性训练应用于交通预测模型来防御时空交通预测的对抗性攻击的人。我们提出了一个新的框架来提高时空交通预测的对抗鲁棒性。这包括将节点选择问题建模为组合优化问题，并使用基于强化学习的方法来学习最优节点选择策略。此外，我们将自我知识蒸馏作为一种新的训练技术来解决不断发展的对抗节点的挑战，从而避免了“遗忘问题”。3).我们在两个真实世界的数据集上进行了广泛的实验，并证明了我们的框架及其各个组件的有效性。

2 注释和初步说明

我们首先提供国家概况，然后深入研究时空交通预测，对抗性训练和威胁模型的主题。

交通网络可以用图来表示，其中V是n节点(如交通传感器、道路延伸段、高速公路段等)的集合，是边的集合。我们表示邻接矩阵A来表示交通网络。此外，我们使用地理分布式数据特征，其中表示交通状况(例如，交通速度，车辆数量和交通流量等)和上下文节点푣푖的信息(例如，兴趣点、道路封闭、施工和事故等)。

2.1时空交通预测

基于历史휏交通状况，时空交通预测模型旨在预测未来푇交通状况;

其中是时间段t到t+T的预测交通状况。为模型参数为휃的时空交通预测模型。是时空特性的地面实况

2.2对抗性训练

对抗性训练包括在训练过程中使用对抗性攻击生成的对抗性示例，以提高模型的鲁棒性。对抗性训练可以表述为最小-最大优化问题，

$\theta$ 代表了模型参数, $x'$ 表示对抗的例子,和表示允许敌对的示例的设置组的最大摄动预算 $\epsilon$ , $\delta$ 表示对抗摄动的地方。表示深度学习模型， $y$ 表示基础事实。

2.3威胁模型

我们采用了[15]中提出的针对时空流量预测模型的对抗性攻击分类。攻击者的目标。

攻击者的目标是创建对抗性的流量状态，从而导致时空预测模型得出有偏差的预测。逃避攻击。攻击是在模型训练完成后的推理阶段发起的。攻击者的能力。我们的重点是时空特征级攻击，攻击者可以通过向地理分布数据源注入对抗性扰动来改变时空特征。我们不关注图结构级攻击，因为时空特征级攻击可以导致更高的攻击成功率。注意，攻击者在攻击期间无法操纵模型的体系结构或参数。攻击强度。攻击者可以向 $\lambda$ %的地理分布式数据源注入对抗性扰动。随着被攻击的地理分布式数据源比例的增加，攻击变得越来越强大和激烈。

问题定义:本研究的目标是开发一个对抗性的健壮的时空流量预测模型，表示为，能够防御对地理分布式数据源的对抗性攻击。

3 方法

本节介绍了使用对抗性训练进行时空交通预测的实验研究。我们提出的框架，在第3.2节中详细概述，集中于节点子集作为对抗节点的动态选择。在第3.3节中，我们将节点最优子集的选择作为一个组合优化问题进行数学建模，并引入一个基于时空注意力的表示模块，以改进节点表示的学习并帮助策略学习。为了解决不稳定性的问题，第3.4节引入了一个自蒸馏正则化术语来防止遗忘。

3.1框架概述

图3展示了增强动态对抗训练(RDAT)的框架，其目的是增强时空流量预测模型对对抗攻击的鲁棒性。我们的方法采用节点子集的动态选择作为对抗示例，这提高了对动态攻击的防御，同时减少了过拟合。为了确定对抗节点的最优子集，我们提出了一种基于强化学习的方法。具体而言，我们将节点选择问题表述为组合优化问题，并使用基于策略的网络来学习使内部损失最大化的策略。我们的方法包括一个基于时空注意力的策略网络，该网络对时空地理分布数据进行建模，以及一个平衡的奖励函数策略，为策略网络提供稳定有效的反馈，并缓解训练过程中减少内部损失的问题。最终的预训练策略网络可以用作节点选择器。为了解决“遗忘问题”，我们还引入了对抗训练的自知识蒸馏正则化，其中当前模型使用从先前模型的对抗性攻击经验中提取的知识进行训练。

3.2对抗性训练公式

在本节中，我们研究了传统的对抗性训练方法在时空交通预测中的应用，并提出了我们提出的对抗性训练公式。

最初，我们假设在对抗训练期间保护更大比例的节点将提高预测模型的鲁棒性。然而，我们的探索性实验表明，情况并非如此。事实上，中毒节点的比例越高，预测模型的性能下降越严重。为了验证这一点，我们进行了一个实验，在对抗训练中随机选择不同比例的节点作为对抗样本，如图2所示。

实验结果是反直觉的，并揭示了较小比例的动态选择节点导致更健壮的模型。

图4展示了对抗节点的比例与训练损失之间的关系。图中展示了两种不同的场景，其中x轴表示训练步数，y轴表示训练损失。在图4 (a)中，使用了高比例的对抗节点(在所有节点中随机选择80%)，导致过拟合，训练曲线不稳定。这可能是由于模型过于专门化到特定的受保护节点集，导致对新样本的泛化不良。相反，图4 (b)表明，较低比例的对抗节点(在所有节点中随机选择10%)往往会缓解过拟合问题，并导致更稳定的训练曲线。

时空对抗的例子。我们的方法是基于这样一种见解，即提高模型鲁棒性的关键是积极识别和关注对抗性扰动的最极端情况。具体而言，如下[16]，交通预测模型中的最坏情况涉及空间和时间两个方面。从时间方面来看，攻击者可以在特征空间中注入对抗性扰动。为了有效防御各种类型的攻击，深入探索对抗摄动空间中的最坏情况是至关重要的[3,19]，这类似于图像识别领域所采取的方法。从空间角度出发，在每个训练历元中设计了一种动态的节点选择方法，使内部损失最大化，并保证所有节点都有公平的被选择机会。为了实现这一点，我们在每次训练迭代中从完整的节点集中动态地选择一个表现出时空依赖性的节点子集。为了实现这一点，我们首先定义允许的对抗摄动空间如下:

其中是时空对抗的例子。∆t为时空对抗性扰动。矩阵是对抗节点指示器，它是一个对角矩阵，其第 $j$ 个对角元素表示节点 $v_j$ 在t 时刻是否被选为对抗节点。具体来说，如果节点 $v_j$ 被选为对抗节点，则矩阵的第 $j$ 个对角线元素等于1，否则为0。参数 $\eta$ 是节点数量的预算， $\epsilon$ 是对抗性扰动的预算。

时空交通预测的对抗性训练方法表述如下:

在是敌对的交通状态从时间段 $t-\tau$ 到 $t$ 。表示所有训练样本的时间步长集合。表示用户指定的对抗训练损失函数，它可以包括常用的指标，如均方误差(MSE)或其他。内部最大化的目的是找到最优的对抗性扰动，使损失最大化。在外部最小化中，更新模型参数以使预测损失最小化。

3.3强化最优节点子集学习

在本节中，我们将从一组n时空地理分布数据源中选择最优节点子集的问题表述为组合优化问题。问题实例表示为s，由时空特征表示的n 节点组成，从时隙 $t-\tau$ 到 $t$ 。目标是选择 $\eta$ 全套的节点,节点表示为节点的一个子集,其中和

给定一个问题实例s，目标是学习随机策略的参数 $\phi$ ，使用链式法则分解解的概率。策略网络使用这些信息来确定要选择的节点的最优子集，以便在每次训练迭代中探索对抗性扰动的最极端情况。

策略网络包括编码器和解码器部分。编码器是产生地理分布的数据嵌入。解码器生成Ω序列。

3.3.1策略网络设计。

策略网络将时空特征作为输入，得到解决方案Ω。它由一个时空编码器和一个多头注意解码器组成。编码器将时空特征转换为嵌入，解码器以自回归的方式构建解，每次选择一个节点，并使用前一个选择来选择下一个节点，直到生成完整的解。

时空的编码器。我们使用了一个类似于GraphWave Net的时空编码器[33]，将时空交通数据转换为嵌入。时空编码器接收时空交通数据作为输入，并产生节点嵌入作为输出。时空编码器通常由多个时空层和时间层组成。

空间层。我们采用自适应图卷积作为空间层来捕获空间依赖关系。信息聚合方法基于扩散模型[14]，允许交通信号扩散L步。通过聚合相邻节点的隐藏状态，通过自适应图卷积更新隐藏层嵌入;

式中， $Z'_l$ 表示l层隐含嵌入的输出， $W^i$ 为深度的模型参数i， $A_{ada}$ 为可学习邻接矩阵。

时间层。该模型采用门控时间层对序列数据进行处理。定义如下,

$\sigma$ 代表sigmoid函数, $\theta _1$ 和 $\theta _2$ 模型参数,★表示卷积运算,扩张和⊙代表element-wise乘法。 $E_l$ 为 $l$ 区块的输入， $l$ −1区块的输出。为每个块添加剩余链接。

将不同层的隐藏状态连接并传递到两个多层感知(MLP)中，得到最终的节点嵌入。

，

其中F为节点嵌入的集合， $F_i$ 为节点 $v_i$ 的嵌入。所有节点嵌入的平均值表示为图嵌入，可以表示为。

Multi-Head-Attention解码器。解码器通过在每个步骤k中迭代地选择单个节点来生成节点序列Ω，同时使用编码器的嵌入和前面步骤的输出(对于)作为输入。

具体来说，解码器的输入包括图嵌入和最后一个节点的嵌入，其中第一个选择节点的嵌入是学习嵌入。解码器计算每个节点被选为对抗节点的概率，同时考虑计算效率。在解码过程中，上下文由一个特殊的上下文节点(c)表示。为此，我们结合基于注意的解码器[11]，在解码器之上计算一个注意层，消息只发送给上下文节点(c)。上下文节点嵌入定义如下:

其中为图嵌入，v为第一步迭代的学习嵌入。为k-1迭代步最后选择节点的嵌入。

为了更新消息信息的上下文节点嵌入，采用多头关注法计算新的上下文节点嵌入:

其中是自注意力,和

为了计算下一个节点的概率，键和值来自于初始节点嵌入

我们首先计算分对数与单个头,注意使用新的上下文节点与所有节点查询,

C是常数,与所选节点蒙面

然后,最后节点用链式法则,将softmax概率函数,可以计算每个节点的概率将softmax函数基础上,

其中， $p_i$ 为节点i的概率， $w_k$ 为当前节点

在所有节点中选择概率最高的节点作为下一个采样节点。

3.3.2平衡奖励功能设计。

策略网络学习的主要挑战是评估策略网络生成的解决方案Ω。一种方法是使用内部损失(使用解决方案Ω计算)作为奖励，值越大表示解决方案越好。然而，随着训练的进行，随着模型变得更加鲁棒，内部损失预计会减少，这可能导致不正确的反馈和次优解。为了解决这个问题，我们提出了一个奖励函数的平衡策略。我们没有单独使用内部损失，而是将策略网络生成的结果与基线节点选择器生成的结果进行比较，并将差异作为奖励。该方法为策略网络提供稳定有效的反馈，有助于缓解训练过程中减少内部损失的问题。

具体来说,我们首先获得组对抗的节点指标 $I_t$ , $w_k \in \left \{ v_1,...,v_n \right \}$ ,使用以下功能:

表示第i个对角元素的t时间步。

为了提高计算效率，我们没有使用基于梯度的方法来计算对抗样例，而是直接从概率分布 $\pi (\Delta )$ 中抽取一个随机变量∆来计算Eq 4中的对抗样例。

在实现中，我们选择范围为的均匀分布作为扰动源∆。

为了评估我们的预测模型在使用解决方案中的节点作为对抗节点时的性能，我们计算成本函数如下:

在是MSE损失,和

为了确保策略网络得到稳定有效的反馈，我们对奖励实施了平衡策略。具体来说，我们使用基线节B(例如，随机选择器，随机选择节点等)来选择节点作为解决方案 $\Omega _b$ 。

然后将策略网络生成的结果与基线结果进行比较，并将差异用作奖励。用下式表示:

其中 $\Omega ^{(p)}$ 是由策略网络生成的解决方案， $\Omega ^{(b)}$ 是由基线选择器生成的解决方案，我们使用上标(p)和(b)分别与策略网络选择器和基线选择器对齐。这样，利用平衡奖励函数 $r(\Omega ^{(p)})$ 作为奖励信号，引导策略网络更新解决方案Ω。在实践中，我们采用启发式方法作为基线选择器来选择名为TNDS的节点[16]。

3.3.3策略网络培训。

策略网络的训练是通过对抗方式交替训练策略网络和时空流量预测模型来完成的。

具体来说，策略网络根据输入生成一个求解序列，表示为Ω。然后计算平衡奖励并使用它来更新策略网络。随后,最后节点选择指标是用来计算对抗的例子,表示当,通过投影梯度体面(PGD)[19]根据以下:

操作符是用来限制的最大扰动变量预算。第i 次迭代的对抗性示例用表示。 $\gamma$ 为步长， $I_t$ 为从策略网络中得到的最终节点选择指标，为均方误差损失函数。

随后，在对抗性样本上训练时空交通预测模型，优化预测模型损失:

为了训练策略网络，定义损失函数如式21所示。

c是一个常数。策略网络采用梯度下降法和强化算法进行优化[31]，使用Adam优化器，算法1中概述。

3.4正则化对抗性训练

时空交通预测对抗训练的另一个挑战是不稳定性，当对抗节点在训练过程中不断变化时，就会出现不稳定性。这可能导致模型无法有效记住所有历史对抗节点的情况，从而导致缺乏对更强攻击强度的鲁棒性，通常被称为“遗忘问题”[4,36]。为了解决这个问题，我们建议使用知识蒸馏(KD)将知识从教师模型转移到学生模型。先前的研究表明，KD可以提高模型的对抗鲁棒性[7,20]。

然而，传统的教师模式是静态的，不能提供动态的知识。为了克服这一限制，我们引入了一种新的对抗训练的自知识蒸馏正则化。具体来说，我们使用前一个时代的模型作为教师模型，这意味着当前的时空交通预测模型是使用从前一个模型中提取的知识来训练的。通过这种方式，当前模型可以从以前的模型中学习对抗性攻击的经验。知识蒸馏损失定义如下

式中为知识蒸馏损失(例如，。MSE等等)。为教师模型，采用上次训练的模型。综上所述，最终的对抗性训练损失定义为:，

其中 $\alpha$ 是控制从教师模型转移的知识数量的参数。注意，在第一个训练历元中，直接使用函数作为对抗性训练损失。

3.4.1时空交通预测模型对抗性训练。

培训过程分为两个阶段。在第一阶段，我们使用算法1训练策略网络。在第二阶段，我们使用预先训练好的策略网络选择对抗节点以提高计算效率，然后使用PGD方法计算对抗示例。对抗性示例使用公式19计算，公式23中的对抗性训练损失。最后，使用Adam优化器更新预测模型参数 $\theta$ 。整个训练过程在附录A中的算法2中进行了概述。

4实验

在本节中，我们将我们提出的方法与最先进的对抗性训练方法在时空交通预测方面的性能进行比较。我们的目标是回答以下评估问题:•EQ1所提出的方法是否提高了真实世界数据集上时空交通预测模型的对抗鲁棒性?•EQ2对抗性训练框架、政策网络和自蒸馏模块的效果如何?对于不同的超参数值，所提出的方法的鲁棒性如何?为了回答这些问题，我们提出了数据集、基线、目标模型、评估指标和实现细节，然后进行了实验。

4.1评价

数据集。我们使用了两个真实世界的时空交通预测数据集，PeMS - bay[14]和PeMS - d4[14]，它们分别由加州交通绩效(PeMS)收集，包含交通速度和流量数据。这些数据集按时间升序排序，连续点之间的时间间隔为5分钟。我们分配70%的数据用于训练，10%用于验证，20%用于测试。

基线。目前文献中能够直接应用于实值交通预测防御设置的研究很少。因此，为了保证公平的比较，我们使用了最先进的对抗性训练方法，包括对抗性训练(AT)[19]、TRADE[28]、Mixup[37]和GrpahAT[6]以及随机节点选择策略。此外，我们使用最新的流量预测攻击方法TDNS[15]作为与AT相结合的动态节点选择方法，我们将其称为AT-TDNS。这些方法作为我们的基线。

目标模型。我们采用最先进的时空流量预测模型GraphWave Net[33]作为目标模型来评估我们的对抗性训练框架的泛化性。关于其他目标模型的结果载于附录B.3。

评价指标。为了评估时空交通预测模型的对抗鲁棒性，我们采用平均绝对误差(MAE)和均方根误差(RMSE)作为评价指标。

实现细节。我们在带有12个RTX 3090 gpu和2个RTX A40 gpu的Linux Centos服务器上使用Pytorch进行实验。将流量数据归一化为范围[0,1]，输入输出长度分别设置为 $\tau$ = 12和T= 12

我们遵循[15]中的攻击设置，使用PGD-Random、PGD-PR、PGD-Centrality、PGD-Degree和PGD-TNDS作为攻击者。正则化参数훼设置为0.4。训练和测试的扰动幅度휖均为0.5。在训练时，我们在每个epoch选择总节点的10%作为对抗样例，而在测试中，我们使用更强的攻击强度，选择总节点的20%作为对抗样例。我们进行了五次实验，并给出了平均结果以及指标的标准偏差(STD)。

4.2 EQ1:主要结果

为了回答第一个评估问题(EQ1)，我们将所提出的方法与最先进的对抗性训练方法在两个现实世界的交通预测数据集PEMS-BAY和PEMS-D4上进行了比较。表1和表2给出了我们提出的防御方法对对抗性流量预测攻击的整体对抗性鲁棒性性能和五个基线，使用两个指标进行评估。我们的对抗训练方法显著提高了流量预测模型的对抗鲁棒性，在ppd - random攻击下，pms - bay和pms - d4数据集的对抗鲁棒性分别提高了68.55%、66.050%和69.70%、69.0343%。此外，与PEMS-BAY的几乎所有基线相比，我们的方法在清洁性能上分别取得了(1.12%，2.10%)的提高，在pgrandom, PGD-PR, PGD-Degree攻击下的对抗鲁棒性分别取得了(7.65%，12.19%)，(7.75%，3.31%)和(7.35%，2.81%)的提高。虽然我们的方法在PGD-TNDS攻击下的RMSE略弱于GraphAT(4.4545比4.3762)，但我们的方法具有较低的标准差，表明稳定性增加。总的来说，我们的方法显著增强了流量预测模型对对抗性流量攻击的对抗鲁棒性。

在四种不同的攻击强度( $\lambda$ = 40,60,80,100)下，与五个基线相比，我们进一步检查了流量预测模型对对抗性攻击的鲁棒性。图5所示的结果表明，我们的方法在所有攻击强度下都表现出优越的性能，例如在100%攻击强度下，PeMS-BAY和PeMS-D4分别提高了13.9842%和2.8602%。值得注意的是，TRADE方法在更强的攻击强度下表现不如其他对抗性训练方法(AT, Mixup, GraphAT, AT- tnds)，可能是由于干净性能和对抗性性能之间的权衡。此外，结果表明，AT-TNDS优于几乎所有其他基线，这验证了动态选择节点子集作为对抗节点的有效性。

然而，AT-TNDS的表现比我们的方法差，因为它在训练期间遇到了不稳定，并且无法处理动态对抗性流量攻击。

4.3 EQ2:消融研究

为了回答EQ 2，我们通过在PeMSBAY数据集上使用平均绝对误差(MAE)度量进行消融研究，检查了对抗性训练框架的不同组成部分对流量预测模型性能的影响。我们评估了我们的方法的四种变体:(1)at - degree，它以静态方式根据节点的归一化程度选择节点;(2)AT-Random，它以动态方式随机选择节点;(3)AT-TNDS，它基于时空依赖的方法选择节点;(4)AT-Policy，它使用预训练的策略网络来选择不带自蒸馏的节点;(5)我们的方法，它使用带有自蒸馏正则化的预训练策略网络来选择节点。如图6所示，删除任何组件都会导致显著的性能下降。特别是，当使用静态节点选择策略时，我们观察到显著的退化，这证明了我们的对抗性训练框架的有效性。其次，通过比较AT-Random和AT-Policy，我们发现策略网络在选择节点子集作为对抗示例方面发挥了重要作用。最后，我们还观察到自蒸馏显著提高对抗性训练的稳定性;例如，通过去除自蒸馏，PeMS-BAY和PeMS-D4的标准偏差分别降低了60%和27.0775%。

4.4 EQ3:参数分析

为了回答EQ 3，我们以PeMS-D4数据集为例，进行了敏感性分析，以评估超参数对对抗性训练框架性能的影响。研究的参数为内部迭代次数(b)和正则化参数( $\alpha$ )，其他参数保持不变。结果显示，随着内部迭代次数的增加，性能整体呈上升趋势，在30次时达到峰值迭代(图7 (a))。不同正则化参数下的性能表现为初始提升，在 $\alpha$ = 0.6处达到最低点，在 $\alpha$ = 0.8处下降，在最高值处再次提升(图7 (b))。

4.5案例分析

在本节中，我们进行案例研究，以显示我们的对抗性训练框架的有效性。图8中的案例研究直观地展示了我们提出的对抗训练框架在时空交通预测任务中的有效性。图8 (a)说明了没有防御对抗性攻击的流量预测模型的结果，而图8 (b)说明了具有我们提出的对抗性训练防御的相同模型的结果。从图中可以清楚地看出，没有防御的模型在对抗性攻击下提供了有偏差的预测，而有防御(对抗性训练)的模型保持了预测的准确性，并且能够提供与原始预测相似的结果。

5 相关工作

在本节中，我们将简要介绍相关主题，包括时空交通预测和对抗性训练。

5.1时空交通预测

近年来，深度学习在工作技能评估[26]、时间序列预测[40]和时空交通预测[39]等多个领域得到了广泛的应用。在这些应用中，时空交通预测对智能交通系统的成功起着至关重要的作用[5,9,12,13,21,32,34]。预测空间和时间交通模式的能力对于有效的交通管理和改善通勤者的旅行体验至关重要。为了解决这些预测问题，深度学习模型由于其对交通数据中存在的复杂空间和时间依赖性进行建模的卓越能力而得到了广泛的探索。为了提高交通预测的准确性，人们提出了多种方法，如STGCN[35]、DCRNN[14]和GraphWave Net[33]，每种方法都利用不同的技术来捕获时空信息。尽管取得了进展，但时空交通预测模型的脆弱性和对抗性鲁棒性仍然是一个未探索的研究领域。

5.2对抗性训练

现有文献已经探索了各种方法来提高深度学习模型对对抗性攻击的鲁棒性[1,10,19,23,24,27]。一种流行的方法是对抗性训练，其目的是通过使用对抗性示例增强训练数据来增强模型的内在鲁棒性。

该方法基于最小-最大优化问题，通过识别最坏情况最优来找到解决方案。针对不同类型的数据，如图像和图形，已经提出了对抗性训练方法。例如，TRADE[28]是一种平衡干净性能和鲁棒性之间权衡的方法，而GraphAT[6]是专门为图结构数据设计的对抗性训练的变体。然而，目前的对抗训练方法主要集中在静态领域，如图像和图表，而动态领域，如时空预测，探索较少。

6结论

总之，本文提出了一个将对抗性训练纳入时空交通预测任务的新框架。研究表明，静态领域的传统对抗训练方法不适合防御流量预测任务中的动态对抗攻击。为此，我们提出了一种基于强化学习的方法来学习选择对抗示例的最佳策略，从而提高了对动态攻击的防御能力并减少了过拟合。此外，我们引入了自知识蒸馏正则化来克服训练过程中不断变化的对抗节点所导致的“遗忘问题”。我们在两个真实世界的交通数据集上评估了我们的方法，并证明了它比其他基线的优越性。

我们的方法有效地增强了时空交通预测模型的对抗鲁棒性，这对于ITS提供准确的预测和避免拥堵和延误等负面后果至关重要。