论文地址: https://arxiv.org/pdf/2207.09572v3.pdf
代码地址:https://github.com/awslabs/gluonts
https://github.com/awslabs/gluonts/tree/dev/src/gluonts/ nursery/robust-mts-attack
总体框架:
摘要:本文研究了对多元概率预测模型进行对抗攻击的危害以及可行的防御机制。我们的研究发现了一种新的攻击模式,通过对少量其他时间序列的过去观测进行战略性的、稀疏的(难以察觉的)修改,对目标时间序列的预测产生负面影响。
为了缓解这类攻击的危害,本文设计了2种防御策略:
- 首先,将分类任务中的随机平滑机制扩展到多元预测场景;
- 第二,设计了一个对抗训练算法其学习创建对抗性样本同时优化预测模型以提升其对这样对抗模型的鲁棒性。
大量的实验展示出我们的攻击策略是有效的且相比于baseline的防御机制,我们的防御算法更有效。
1. Introduction
【时序鲁棒性,时序的噪声,时序的对抗攻击和防御引入】理解时间序列模型的鲁棒性已经是一个长期存在的问题,且跨越了多个学科,如气候变化,金融市场分析,零售业的下游决策系统,云计算的资源规划,车辆最优控制等。特别是,鲁棒性的概念定义了当真实数据(可能)受到噪声干扰时模型输出的敏感程度。在实践中,由于观测数据经常被测量噪声破坏,因此开发对此类噪声不太敏感或对此类损坏可能产生的异常值更加稳定的统计预测模型非常重要(——开发防御模型的必要性)。然而,这些方法没有考虑对抗性噪声的可能性,这些噪声是策略性地创建来误导模型的,而不是从已知的分布中采样的(——防御模型和对抗噪声的差异 )。
【时序对抗攻击场景解释】实际上,一些研究已经在分类问题中指出了针对此类对抗性噪音的漏洞。事实证明,人类难以察觉的对抗性扰动可以改变深度学习(DL)模型的分类结果,揭示对许多安全关键系统的严重威胁。由于这种风险与深度学习适应复杂数据模式的高能力相关,我们假设在基于深度学习的现代预测模型已成为主导方法的预测中也可能出现类似的威胁。比如说,为了误导一个具体股票的预测,对手可能会尝试改变股票财务估值之外的一些特征,以最大化真实特征和改变特征的价值预测之间的差距。这样的攻击对抗的可行性最近已经被一个基于文本的股票预测的推文消息所验证。
【分类和预测问题对抗攻击的差异】受到这些实际场景的启发,我们建议在更实用的预测模型上研究此类对抗性威胁,这些模型的预测基于更精确的特征,例如,其他股票指数的估值。直观地说,对手不是在社交媒体上发布不利信息来改变对目标股票的情绪,而是可以进行投资,从而对选定的股票指数子集(不包括目标股票)的估值产生不利影响,这可能更难检测。有趣的是,尽管考虑到有关分类模型的对抗性攻击的大量文献(这似乎是合理的),但在多变量预测设置下制定这种难以察觉的攻击并不简单(——本文动机,多变量时序预测的攻击策略难制定)。这是由于预测和分类之间存在一些差异,特别是在时间序列的独特特征方面,例如多步预测、多个时间序列的相关性和概率预测。
【单元序列对抗攻击和多元序列对抗攻击】这些差异提出了一个问题:如何在时间序列设置中更正确地定义对抗性扰动和鲁棒性adversarial perturbations and robustness。尽管最近在这个方向上有一些基于随机平滑的研究,但这些方法都仅限于单变量预测,其中攻击必须直接对目标时间序列做出不利的改变。因此,在多变量时间序列预测设置的研究较少的情况下,尚不清楚是否可以通过扰动其他相关时间序列来对目标时间序列进行攻击,以及它是否能够防御此类对抗性威胁。特别是,如上面股票预测示例所示,多变量时间序列场景下存在稀疏和间接交叉时间序列攻击sparse and indirect corss time series attack的新机制,比单变量情况下的直接攻击更加有效和现实。
为了了解这种新的攻击机制(多变量时序场景下,稀疏和间接交叉的攻击)是否存在并且可以防御,我们提出三个问题:
- 间接攻击。 我们是否可以通过对其他时间序列的扰动来误导某些目标时间序列的预测?
- 稀疏攻击。 这种扰动是否可以稀疏且不确定,从而不易被察觉?
- 坚固的防御。 我们能防御那些间接的、难以察觉的攻击吗?
在这里,我们通过回答上述问题来总结我们的技术贡献:
- 间接攻击,我们提供了多元时间序列中对抗性攻击的通用框架(参见第 3.1 节)。 然后,我们设计了对最先进的概率多元预测模型的确定性攻击(参见第 3.2 节)。 该攻击通过不利地扰动其他时间序列的子集来改变模型对目标时间序列的预测。 这是通过将扰动公式化为具有packing constraints的优化任务的解来实现的;
- 稀疏攻击,我们开发了一种非确定性攻击(参见第 3.3 节),它会不利地扰乱与目标时间序列相关的时间序列的随机子集,从而使攻击不易被察觉。 这是通过随机且连续的松弛上述打包约束a stochastic and continuous relaxation of the above packing constraint来实现的,这在某些情况下比确定性攻击更有效(参见第 5 节)。 此外,与确定性攻击不同,它的可微性使其适合直接集成为可微防御机制a differentiable defense mechanism的一部分,该机制可以通过端到端方式的梯度下降进行优化,如稍后在 4.2 节中讨论的。
- 鲁棒防御,我们提出两种防御机制。 首先,我们将随机平滑调整到具有robust certificate的新的多元预测设置中。 其次,我们通过解决最小最大优化任务来设计一种防御机制(参见第 4.2 节),该任务最小化概率攻击造成的最大预期损害,该攻击不断更新其不利扰动的生成以响应模型更新。 第 5 节中的大量实验证明了它们的有效性。
2. Related Work
Deep Forecasting Models. 近几十年来,基于 DNN 的预测模型取得了巨大进步。 考虑到时间序列数据的时间依赖性,基于 RNN 和 CNN 的架构已被证明在时间序列预测任务中是成功的。为了对不确定性进行建模,人们提出了从分布输出distributional outputs到基于无分布分位数的输出distribution-free quantile-based outputs的各种概率模型。 在多变量情况下,Salinas等人将 DeepAR 推广到多变量情况,并采用低秩高斯关联过程来应对高维挑战。
Adversarial Attack. 尽管深度神经网络在各种任务上都很成功,但他对对抗攻击是很脆弱的,从某种意义上说,即使是难以察觉的对抗性噪音也可能导致完全不同的预测。在计算机视觉中,许多对抗攻击的策略已经被提出,比如Goodfellow和Madry等人研究攻击图分类器的技术,Dai等人攻击图结构数据。在时间序列领域,很少有相关文献,大多数关于 MTS 模型对抗鲁棒性的现有研究仅限于回归和分类设置。 或者,Yoon等人研究了对概率预测模型的对抗性攻击,但其仅限于单变量设置。
Adversarial Robustness and Certification. 针对对抗性攻击,大量的工作致力于量化模型的稳健性和防御机制。比如,Fast-Lin/Fast-Lip递归地计算了神经网络的local Lipschitz constant; PROVEN证明了概率方法的稳健性。最近,Cohen等人提出的随机平滑已经获得了大量的关注以增强模型鲁棒性;Li等人提出了一种具有认证保证的防御方法。在时间序列设置上,Yoon等人将随机平滑技术应用于单元预测模型(——时间序列的防御技术)。但是,我们不知道任何关于多元概率模型随机平滑的先前工作。
3. Adversarial Attack Strategies
(这节太难了。。。数学理论大佬,这辈子的数学理论加起来都看不懂)
本文在3.1节中提供了多元场景下的——稀疏和间接对抗攻击的通用框架;确定性的攻击在3.2节中介绍,随机的攻击在3.3节中介绍。
Notations.
3.1 Framework on sparse and indirect adversarial attack
the sparse and indirect attack被定义如下:
3.2 Deterministic attack
3.3 Probabilistic attack
为了使攻击更加难以察觉,我们在本节中进一步展示了另一种近似方法,该近似方法会导致概率稀疏攻击,从而对一组非确定性坐标(即时间序列和时间步长)做出不利的改变。 正如我们的实验所示,这种不确定性似乎使攻击变得更强大且更难以检测。
为了实现这一目标,我们将稀疏攻击向量视为从具有可微参数化的分布中抽取的随机向量。 核心挑战是如何配置这样一个分布,其支持度保证在稀疏向量的空间内。 为了实现这一目标,我们提出了稀疏层,即正态标准和狄拉克密度组合的分布输出。 该层的输出满足宽松的稀疏支持条件(参见定理3.2)。
Sparse Layer.
Optimizing Sparse Layer.
4. Defense mechanisms against adversarial attacks
在概率预测模型上的对抗攻击已经在单元时序设置下研究过了。在基本数据增强的技术上,本文设计了更有效的防御机制以通过随机平滑和用稀疏层最小最大化防御增强模型鲁棒性。
4.1 Randomized smoothing defense
随机平滑(RS)(2019)是一种训练后防御技术。 据我们所知,随机平滑从未考虑过多变量设置,因此我们将 RS 应用于我们的多变量预测器。
4.2 MIN-MAX Defense
5. Experiments
5.1 Experiment setups
Dataset: Traffic, Electricity, Taxi, Wiki.
Multivariate Forecaster: DeepVAR
Data Augmentation and Randomized Smoothing.
Metrics. wQL(weighted quantile loss)
5.2 Experiment results