工业控制系统中跨层防御机制的高效并行强化学习方法

本文提出了一种基于多属性的奖励量化方法，用于模拟网络和物理层在工业控制系统（ICS）中的相互作用，以解决网络安全问题。通过建立随机博弈模型，结合Q-learning算法，设计了一种并行Q-learning（PQL）算法，以快速找到最佳防御策略。实验结果显示，PQL算法在降低计算复杂性和提高收敛速度方面优于传统Q-learning和深度Q-network（DQN）算法，平均完成时间减少了12.5%到37%。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

工业控制系统中跨层防御机制的高效并行强化学习方法

原文
An Efficient Parallel Reinforcement Learning Approach to Cross-Layer Defense Mechanism in Industrial Control Systems
申明
版权归原文作者及出版单位所有，如有侵权请联系删除。

摘要

正在进行的数字化使工业控制系统（ICS）实现了稳定的控制过程和平稳的运行。ICS的高度互联结构的一个直接后果是引入了网络漏洞，ICS面临的网络安全威胁越来越大。众多的研究关注ICS的安全问题。然而，目前的研究大多面临两个挑战。首先，ICS的网络层和物理层之间的交互问题可能会导致错误的攻击响应策略。其次，ICS是实时系统，但现有的基于博弈论或强化学习技术的防御决策算法具有较高的计算复杂性，这使其无法快速做出决策。在本文中，我们设计了一种新的基于多属性的奖励量化方法，并提出一种基于多属性的Q-learning算法来解决交互问题。此外，为了克服收敛速度慢的限制，我们开发了一种有效的并行Q-learning（PQL）算法来快速找到最优策略。实验结果显示了PQL算法的有效性。与Q-learning算法（QL）和深度Q-network（DQN）算法相比，我们提出的解决方案可以将平均完成时间减少12.5%到37%。

1 简介

随着工业4.0的发展，传统的工业控制系统（ICS）已不再是孤立的。现代ICS有望满足大数据和高传输率的需求，实现智能服务[1], [2]。在ICS对高速大容量数据通信和信息处理需求不断增长的背景下，信息和通信技术（ICT）正发挥着越来越重要的作用。ICS的高度互联架构的一个直接后果是ICS的脆弱性和网络安全威胁越来越大，这一点在媒体的大量报道中有所体现最近的网络攻击[3]，[4]。

与传统的IT网络相比，ICS是物理控制过程与现代通信的整合技术。图1显示了一个典型的ICS架构。蓝色部分代表网络层，负责收集-摄取物理数据，监测和控制物理过程。绿色部分代表物理层，主要是完成具体的生产过程，通常由几个过程设备组成，包括传感器、执行器和控制器。事实上，与信息技术的整合使物理过程暴露在网络攻击之下。因此，有必要开发新的模式来评估网络攻击对ICS的物理影响[5], [6]。

在这里插入图片描述

图1 综合监控系统的结构

最近，人们越来越关注ICS的安全问题。许多研究都集中在新的方法上，如博弈论、控制论和强化学习[7], [8], [9], [10], [11], [12]。然而，他们往往面临两大挑战：首先，网络层和物理层之间的互动会放大攻击的影响。与传统的IT网络攻击不同，针对ICS的网络攻击的最终目标是破坏物理控制过程和物理资产。因此，我们需要从全球角度为ICS安全问题设计一个新的模型；其次，ICS是实时系统。如果管理员不对攻击做出快速反应，将会造成严重的后果。目前基于博弈论和强化学习的入侵响应研究忽略了设计模型的计算复杂性[13], [14], [15]。

在本文中，我们设计了一个新的安全模型，为ICS提供低计算复杂性的最佳防御策略。特别是，我们首次提出了一个新的量化机制来模拟网络和物理领域之间的相互作用。此外，防御者和攻击者之间的互动也是基于以下几点来制定的在随机博弈中。随后，我们将Q-learn-ing算法应用于随机博弈，构建了一个多代理强化学习模型。我们开发了一种基于多属性的Q-learning算法，该算法可以实现最佳决策策略。最后，我们实现了一个非常有效的PQL算法来快速找到最优策略。具体来说，多个攻击者可以作为主动的、独立的学习者，帮助系统同步收集学习数据。因此，拟议的PQL算法可以快速了解环境信息。本文的主要贡献是。

• 我们提出了一种基于多属性的量化机制，考虑到了网络和物理领域的相互作用。为提高ICS的安全性，我们开发了一种更全面的ICS模型设计方法。

• 我们将攻击者和防御者之间的互动表述为一个随机博弈。Q-learn-ing算法被用来构建一个多Agent rein-forcement学习模型。在此过程中，我们首次提出了一种多属性的Q-learning算法，该算法可以提供最佳决策策略。此外，我们分析并证明了所提模型的一致性。

• 我们开发了一个轻量级但有效的PQL算法，通过同时利用多个独立学习过程的信息来快速获得最优策略。我们通过广泛的模拟来评估所提出的算法的性能，这表明与Q-learn-ing算法和DQN算法相比，PQL算法是可靠和有效的。

本文的其余部分组织如下。第2节回顾了相关研究，第3节定义了问题。第4节介绍了问题的表述并提出了PQL算法。第5节评估了所提算法的性能。第6节是本文的结论。

2 相关工作

在现有的研究中，已经提出了各种解决方案来解决ICS的安全问题，例如，[12]、[16]、[17]、[18]、[19]、[20]。在[18]中，设计了一个两人多阶段的游戏框架，以保护基础设施并增加基本网络设计的灵活性。这个模型的目标是保持基本网络前后的连接性。攻击。攻击者似乎要破坏网络连接，而防御者似乎要维持网络连接。基于子博弈完全均衡（SPE），攻击方和防守方的最优策略被计算出来。在[19]中，Zhang等人为物联网中攻击者、防御者和网络保险人之间的互动设计了一个两级博弈模型Flipln。其目标是最大限度地提高防御者的网络保险合同，并对物联网设备进行风险评估。在分布式网络和集中式网络环境中，Flipln模型可以提供最佳策略。对于一般Stackelberg安全游戏中有限的可观察攻击目标，Perrault等人[20]提出了一种以游戏为中心的端到端方法，以实现更高的防御者预期效用。攻击者模型被训练成不断学习防御行动，以使防御者的预期收益最大化。实验结果表明，这种方法可以获得比现有方法更好的防御。Wang等人[12]提出了一个基于深度剩余卷积神经网络（CNN）的模型，用于检测对ICS的攻击。与深度学习算法相比，这个提议的模型通过利用转移学习，速度更快。而实验结果显示，所提出的方法实现了高性能，并解决了深度学习模型训练的时间问题。然而，这些游戏模型不能以统一的方式对网络层和物理层进行建模。

为了处理网络和物理系统之间的相互依存关系[21]，Huang等人[22]将攻击者和防御者之间的竞争构建为一个随机的博弈模型。这个模型考虑了游戏状态转换的概率分布，并开发了一个基于时间的跨层效用量化方法。实验结果表明，该模型可以找到最有效的防御策略，并很好地减少系统损失。针对协同网络攻击，Wei等人[23]首先设计了一种基于最优减载的方法来量化协同攻击对物理控制过程的影响。然后，使用量化的指标作为输入，设计了一个基于随机博弈的资源再分配模型来模拟攻击者和防御者之间的竞争。同时，采用了Q-learning算法，使博弈模型中的攻守双方都能获得最优的策略。最后，证明了所提出的模型的收敛性。在[24]中，Liuetal.设计了基于加权彩色Petri网的网络物理攻击模型。然后，网络层和物理层的节点之间的威胁传播被构造为一个不完全信息贝叶斯博弈模型。攻击对物理层的影响最终通过解决贝叶斯纳什均衡来分析。然而，所有这些方法都忽略了基于博弈的方法的高计算复杂性。

博弈论和强化学习的结合同样被用于网络安全决策。在[25]中，内容边缘缓存设备和供应商之间的互动被建模为移动社交网络中的Stackelberg安全游戏。特别是，在博弈模型中，设计了一个零支付策略来解决边缘缓存设备的安全问题。由于缺乏关于博弈参数的信息，使用了Q-learning来确定最优策略。在[13]中，提出了一个具有不完美信息的博弈模型来处理与ICS的安全问题。多代理强化学习被用来推导出最佳防御策略。通过对ICS中的病毒传播进行建模，该模型可以提供最佳的防御策略。其他一些研究集中在平行学习算法上。Zhang等人[26]提出了一个基于GPU的框架ParSecureML来提高安全机器学习算法的性能。Huynh等人[27]开发了一种并行的Q-learning算法，用于高动员下的毫米波车辆网络。然而，大多数强化学习算法都存在收敛速度慢的问题，尤其是在复杂的动态环境中。

由于上述限制，本文提出了一个新的模型，通过结合网络和物理领域的相互作用，可以有效地利用最佳防御策略。进攻和防御过程被建立为随机博弈，我们在博弈模型中引入Q-学习。此外，我们没有采用深度强化学习结构，例如DQN，而是预设了PQL算法，以实现较低的计算复杂性和较快的收敛速度。

3 问题的定义

通常情况下，物理层需要来自网络层的参考或控制信息，而网络层需要来自物理层的反馈信息。因此，网络和物理系统之间的这种相互作用意味着，威胁不是简单的对子系统的威胁的总和。相反，这两部分在受到攻击时可以相互加强。现有的ICS模型往往忽略了这些相互作用。因此，本研究提出了一种新的定量方法来定量评估每个节点的网络物理安全状态。表1中列出了所有经常使用的符号。

首先，基于系统模型中每个节点的多个属性值，我们给出以下三个定义。

定义1（重要性等级（IL））。重要性等级用于量化ICS中每个节点的重要性。其重要性取决于节点的功能。这里，CIA三要素（保密性、完整性、可用性）的重要性与AIC成反比考虑。IL值越大的节点表明该节点相对来说越重要。

定义2（关联水平（AL））。关联度表示一个节点被攻击后的感染力。一个具有较大重要性水平的节点不一定具有较大的关联度。然而，具有较高关联度的节点通常具有较大的重要性。

定义3（防御强度（DS））。防御强度反映了分配给或配置给一个节点的保护资源的数量。节点的DS值越高，说明该节点拥有的防御资源越多，也就是说，该节点的防御能力越强，节点越安全。当节点具有较高的IL值时，该节点就比较重要，安全管理者也会相应地给它分配更多的防御资源；反过来，该节点的DS值也比较大。

在这里插入图片描述

IL、AL和DS由系统管理员设置，并映射到一个统一的非维度区间F。让fi !F是管理员对第1个区间的评价函数属性值。一般来说，ICS中的评价值分为三个等级，高、中、低。那么我们有F 2 ½1; 3]。我们将网络物理安全指标（CPSM）定义如下。

在这里插入图片描述

其中w¼ðAþDÞ=S是一个常数[6]，S、A和D与下面模型中的状态空间和行动空间有关。一个节点的CPSM值越大，该节点越重要，当ICS受到攻击时，该节点的损失越大，该节点的防御能力也相对较弱。因此，节点的感染率越高，节点的安全性就越低。CPSM反映了ICS受到攻击时每个节点本身的影响。此外，攻击者的目的是通过恶意入侵和操纵ICS中的节点来破坏生理控制过程。我们提出了一种基于时间的方法来量化网络攻击下的物理控制过程。相关定义如下。

定义4（攻击时间（AT））。攻击时间是指当攻击者选择一个目标节点进行攻击时，执行相应攻击所需的时间。

定义5（防御时间（DT））。防御时间是指防御者对特定节点进行攻击时，提供相应防御所需的时间。

定义6（恢复时间（RT））。恢复时间是指网络模型中被攻击的节点恢复正常所需的时间。对于每个节点，恢复时间由两部分组成。

上面的定义，我们考虑到了攻击对物理过程的影响。如图2所示，根据[28], [29]，一个物理控制系统有四个组成部分：（1）物理工厂，（2）传感器收集和发送物理系统在时间k的测量数据yk 。(3) 控制器根据测量数据yk 向执行器发送控制命令uk，(4) 执行器根据uk 执行实际物理动作，同时执行器数据vk = uk 。物理过程模型描述如下。

在这里插入图片描述

图2 物理控制过程

在这里插入图片描述

其中xk是物理过程的状态，未知的输入dk是任何可能的攻击。输入dk模拟任何可能的攻击，euk是物理工厂的传感器数据。是物理工厂的传感器数据，而控制器收到的yk是eyk。传输的数据yk、uk和接收的数据yk、eu之间不匹配。错配，接收到的数据，eyk，eu 在本文中，我们没有考虑到可能由延迟或丢包造成的微小误差。在物理过程中，我们没有考虑延迟或丢包造成的噪音。因此，不匹配可能是由攻击者的行为造成的。正常状态正常状态定义如下。

定义7（正常状态（NS））。物理控制过程的正常状态或稳定运行状态定义为euk =uk，其中uk min uk max，yk = yk，其中yk min yk yk max，dk = 0。uk min和yk min是uk和yk的最小值，uk max和yk max是uk和yk在设定范围内的最大值。否则，物理过程就处于非正常状态。这些值是由图2中的检测系统设定的。检测的细节见图3。

在这里插入图片描述

图3 探测系统

因此，恢复时间（RT）指的是防御者需要时间使被破坏的执行器和攻击后传感器恢复正常，以物理程序。基于这种定量方法，我们提出了一个基于游戏的多代理强化学习模型。

在这里插入图片描述

4 问题的提出

在一个脆弱的ICS网络模型中，攻击者可以通过发现和利用ICS的漏洞来破坏和控制生产过程。对于攻击者来说，对ICS造成的损害越大，它能获得的收益也就越大。防御者对入侵检测系统（IDS）检测到的攻击采取适当的防御措施。理想情况下，ICS对防御者来说是绝对安全的，没有漏洞可供利用，也就是说，不需要额外的防御措施。然而，在实际情况下，当攻击发生时，无论防御者采取何种防御措施，都是一种损失。攻击者试图使他的回报最大化，而防御者则试图使系统损失最小化。从这个角度来看，竞争性互动被表述为随机博弈，以分析防御者的最佳策略。此外，考虑到ICS中网络层和物理层之间的相互作用，我们设计了一种新的奖励量化方法来量化攻击对网络层和物理层的影响。具体的模型设计说明如下。

4.1 基本模式

由于ICS的层次结构很复杂，不同层次之间存在依赖关系，攻击者无法获得对整个ICS系统的全面了解，因此采取随机行动。同时，要捕捉对手的游戏信息，如行动和相应的奖励是非常困难的。本文将ICS系统中攻防过程中的相互作用抽象为一个具有不完全信息的两人随机博弈模型。该随机博弈模型被定义为一个六元组

在这里插入图片描述

相关的定义在表2中给出。在每个状态下，攻击方有一个相应的攻击行动集，防御方有一个相应的防御行动集。这两个行动集构成了攻击-防御行动对。根据当前状态以及攻击方和防御方的行动，状态会发生变化，其中攻击方和防御方将获得相应的奖励。

4.2 实用功能

在本小节中，将介绍效用函数。攻击者的效用是由即时奖励和下一状态的预期效用组成的。因此，攻击者的效用可以定义为

在这里插入图片描述

其中EðU0AÞ是下一状态的期望效用，Rðs; a; dÞ是攻击者的即时奖励，a是攻击策略，d是防御策略。因此，行动策略可以定义为

在这里插入图片描述

其中，ðaj ; di Þ是一个行动对，即攻击者在状态s下执行行动aj ，防御者执行行动di 。因此，这意味着攻击者的效用不仅由攻击行动决定，而且在随机博弈过程中也强烈依赖于防御行动。近似的奖励函数是

在这里插入图片描述

其中CPSM是网络-物理安全指标。CPSM反映了节点对网络层和物理层的重要性。d是成功攻击的概率。一般来说，我们使用CVSS提供的可利用性分数来量化漏洞。RT ðaÞ是攻击者执行动作a的节点的恢复时间，它反映了攻击对物理控制过程的影响。DT ðdÞ是执行防御行动d的防御时间。AT ðaÞ是执行行动a的攻击时间。因此，效用函数U考虑了网络层和物理层之间的互动，反映了攻击对ICS的整体影响。此外，防御者试图减少ICS的损失，所以我们假设攻击者和防御者的奖励之和为0。因此，随机博弈模型也可以被看作是一个零和博弈模型。

4.3 跨层安全决策优化问题

在本小节中，我们将攻防过程构建为一个随机博弈模型G，其中攻击者试图使其效用最大化，而防御者试图使系统损失最小。我们使用随机博弈来统一网络攻击和物理控制过程的建模。通常情况下，物理层需要来自网络层的参考或控制信息，而网络层需要来自物理层的反馈信息。所提出的效用函数反映了网络层和物理层之间的互动。基于提出的效用函数，进一步提出了ICS协同设计的统一的博弈论方法。优化问题定义如下。

定义8（跨层安全决策优化问题）。使用量化的奖赏作为输入，跨层安全决策优化问题是要找到最佳策略。

攻击对系统的影响被量化为攻击对系统的影响由效用函数UAða; d Þ和UDða; d Þ来量化，它考虑了网络层和物理层之间的互动。跨层安全决策的目标优化问题的目标是得出一个纳什均衡。设 ða ; d Þ是该问题的最优策略。因此，最佳攻击策略是攻击者可以获得最大的效用。同样地，防御者可以通过最佳防御策略获得损失最小的最优防御策略。

4.4 基于模型Q-Learning的强化学习模型

在本小节中，我们提出了一个随机的博弈模型，其中包括考虑到实际应用的不完全信息。在不完全信息的随机博弈中，有两个挑战。首先，由于进攻方和防守方没有指定对手的行动，所以很难计算公式（6）中的攻防行动矩阵。其次，根据公式（4），随机博弈的效用既包括当前状态下的即时奖励，也包括下一状态的预期值，但两个状态之间的实际转换概率仍然未知。为了解决这些问题，我们在随机博弈中引入了Q-学习算法。我们建立了一个基于多攻击的强化学习模型来处理攻击者和防御者之间的竞争，其中，采用Q-学习算法来推导最优策略问题。Q函数为
在这里插入图片描述

其中，s0 是下一个新状态，g是贴现因子，a ¼ 1=ðt þ 1Þv 是每个迭代步骤t的学习率，v 2 ð1=2; 1Þ [23]。Rðs; a; dÞ是攻击行动a和防御行动d在状态s下的即时奖励。Vðs0 Þ表示在下一个状态s0 的最大预期Q值，定义为

在这里插入图片描述

由于收敛性能是由利用和探索之间的权衡决定的，我们使用"-贪婪算法来得出最优策略，避免停留在局部优化。该算法以概率" ð 0 s " s 1Þ的方式探索，随机选择下一个行动。值得注意的是，随着迭代步数的增加，""逐渐减少[30]。下面的定理中给出了所提模型的收敛性分析和最优策略。在相同的假设下，我们有定理1 首先。

在这里插入图片描述

4.5 基于多代理强化学习的算法

基于多代理强化学习模型，我们我们首次开发了一个多属性的Q-learning算法。习算法。与现有的ICS安全决策研究不同的是主要以Q-learning算法为中心，我们设计了我们从跨层的角度设计了一个多属性的Q-learning算法。角度设计了一种多属性Q-learning算法，以及一种多属性量化机制来评估网络层和物理层之间的互动。物理层之间的相互作用。

如算法1所示，它首先初始化两个表 QTA和QTD，这两个表存储了每个状态下的所有攻防行动对和相应的效用。以及相应的效用。相对而言，在每个迭代中，初始状态被设置为s0。H是完成一次迭代的最大是完成一个迭代的最大步骤数。在第6行中，进攻方和防守方攻击方和防守方选择并执行 "-贪婪算法。然后，他们都会观察状态si的变化，并在第7-8行中获得即时奖励。状态的变化，并在第7-8行获得即时奖励。该算法计算出最优策略以及在状态siþ1中的期望值VAðsiþ1Þ和VDðsiþ1Þ是通过在第9行至第10行，通过由QTA和QTD构建的博弈矩阵GM 从第9行到第10行。之后，该算法更新QTA 和QTD。算法在完成最大迭代后返回每个状态下的最优效用和策略。

在这里插入图片描述

复杂度。算法1的时间复杂性取决于在游戏过程中对纳什均衡解的计算。然而，这个计算过程所需的时间是未知的。[30], [31].因此，我们分析了迭代的最大次数。在算法1中，一个迭代的最大步骤是H。对于每次迭代，需要计算每个状态的Q值。对于有S个状态、A个攻击行动和D个防御行动的原定模型来说行动，我们需要计算A-D次。此外，如果Q值在计算两次后没有收敛，必须继续迭代，这需要S2 次[32], [33], [34]。在这种情况下，算法1的迭代步数的上限是OðHS2ADÞ。

4.6 改进的平行Q-学习算法

对于简单的系统，Q-learning算法可以收敛迅速和即时地获得最佳策略。相比之下。对于复杂系统，由于动态和不确定性，Q-learning算法可能需要很长的时间来收敛[35]。为了加速Qlearning算法，许多与深度学习相结合的深度强化学习算法已经被提出[36]。然而，这些深度强化学习算法的一个共同瓶颈是程式是需要大量的计算和不能保证收敛到最优策略。

不能保证收敛到最优策略。在本文中，我们同时模拟了多个独立的攻击者来设计PQL算法，该算法采用了多个学习过程[27]，[37]。每个学习过程都以一个攻击者为中心，所有的学习过程都是独立的。因此，PQL算法具有较低的计算复杂度，并能比传统的QL算法更快地收敛。更具体地说，我们主要形成两个全局Q表，并且每个学习过程都是多变的。在更新全局Q表时，是排他性的。

为了减少PQL算法的同步化引起的开销，更新Q表的过程得到了改进。几个不同的学习过程可以同时修改Q表中不相关状态的Q值，而不是只有一个学习过程能够以获得Q表的操作许可，在一个时间。由于各学习过程同时更新全局Q表，一个学习过程基于Q值的行动选择会受到其他学习过程的影响。也就是说，该Q值已经被其他学习过程更新，不再是最大值。但是该学习过程仍然可以使用该Q值来更新Q表。换句话说，Q表可以更快地收敛，因为利用的迭代会变成探索的迭代。改进后的有效并行Q-learning算法如算法2所示。

PQL算法首先在第1行初始化两个全局Q表QTA 和QTB 。从第3行到第18行，PQL通过同时模拟多个攻击者，采用了多个学习过程。所有的学习过程都保持QTA 和QTB 。在第7行，攻击者j选择了一个攻击动作aj ，防御者执行dj ，以击退攻击。然后，攻击者j在第8-9行观察当前状态和即时奖励。从第9行到第10行，在这个过程中策略的概率，算法2使用笛卡尔乘积来优化两层的 "for循环 "操作。在第12-13行，PQL更新两个全局Q表QTA 和QTB 。当所有的学习过程完成后，PQL返回每个状态下的最终奖励值和行动策略。

复杂性。实验系统的状态空间和行动空间是有限的。因此，PQL可以快速找到并更新两个全局Q表。此外，当PQL计算奖励矩阵时，它使用笛卡尔乘积来加速。理想情况下，PQL有一个最大迭代上限边界为OðHS2AD=nÞ步骤，有S个状态，A个攻击行动，D个防御行动，H个步骤，和n个学习过程。然而，多个学习过程需要获得全局Q表的读写权限，并可能同时计算同一个Q值，因此PQL的迭代步数的上限在OðHS2AD=nÞ和OðHS2ADÞ之间。

在这里插入图片描述

5 实验评估

5.1 实验设置

这个工业控制系统模拟了一个水电系统。而图4显示了系统的结构。图4a是一个真实的环境，图4b是相应的逻辑结构。在企业层，有两个管理主机。管理主机1（MH1）和管理主机2（MH2）。在监控层，人机界面（HMI）用于监控整个控制过程，工程师站（ES）用于输出操作指令。

在这里插入图片描述

图4 实验环境

S7-300和S7-1500是可编程的用于控制执行器的逻辑控制器（PLC）。物理层中的执行器1（AC1）和执行器2（AC2）。所有节点的IL、AL和DS的值如表3所示，这些值都是根据图4中的网络环境结构和第3节中的相关定义设置的。IL、AL和DS分为三个级别，即1、2和3。MH1和MH2用于监控。它们通过防火墙与控制网络分开，设置都是1。 HMI和ES用于控制两个PLC，所以IL和AL的值比较高。S7-300和S7-1500是直接控制物理过程的PLC，所以它们被设置为3，最高级别。AC1和AC2是重要的物理设备，仅指它们自己的物理过程。因此，IL和DS被设置为最高级别的3，而AL被设置为1。

攻击者发现并利用了系统中的漏洞，其目的是破坏水电站的整个控制过程。攻击者可以利用的漏洞如表4所示。

所有可行的博弈状态都列在表5中。各个状态之间的转换如图5所示。Ai 是在状态 si 中设置的攻击行动。当攻击在相应的状态中成功时，状态就会改变。而攻击行动则列在表6中。特别是，攻击者应该在一个状态下识别并利用这些漏洞。如果攻击者没有发现任何漏洞，攻击者将做什么都不做，维持现状。因此，相关的攻击行动集是A1 = {a1 ; a2 ; a3 ; a10 }, A2 ={a4 ; a5 ; a10 }, A3 = {a4 ; a5 ; a10 }, A4 = {a5 ; a10 }, A5 = {a6 ; a7 ; a10},A6 = {a8 ; a9 ; a10 }, A7 = {a8 ; a9 ; a10 }, A8 = {; }, and A9 = {; }.相应的防御行动见表7。

可用的防御行动集为 D1 = {d1 , d2 , d3 , d11 }, D2= {d4 , d5 , d6 , d11 }, D3 = {d4 , d5 , d6 , d11 }, D4 = {d5 , d6 , d11 }, D5 ={d7 , d8 , d9 , d1 0, d11 }, D6 = {d8 , d1 0, d11 }, D7 = {d8 , d1 0, d11 }, D8= {; }，而D9 = {; }。
在这里插入图片描述

在这里插入图片描述

5.2 实验分析

所有状态下的奖励如图6所示。贴现因子为0.9。从图6可以看出，随机博弈在150次迭代后达到纳什均衡。表8列出了所有状态的平均奖励。特别是S6 和S7 的奖励完全相同，所以图6中S6 和S7 的两条曲线也是一样的。状态S8 和S9 是最终状态，其奖励为0，因为那里不能执行任何行动。

在这里插入图片描述

图5 状态转换图

在这里插入图片描述

所有的最优策略都列在表9中。在PQL的初始阶段，由于关于对手的信息不足，选择策略的概率是随机的。经过一定次数的迭代，代理人开始获得关于对手的信息，此时，通过解决矩阵博弈来确定最佳行动策略。最后，防御者和攻击者都获得了自己的一套最优策略。这个实验场景表明，最佳策略可以通过PQL算法获得。

在这里插入图片描述

图6 不同状态下的Q-learning过程奖励

据我们所知，很少有研究将博弈论和强化学习算法应用于ICS中网络层和物理层的互动问题。由于不同的性能指标和特点，对上述研究进行比较是不合适的。因此，两种经典的算法–QL算法和DQN算法[38]被引入以评估PQL算法的有效性和性能。我们在ICS的三个虚拟仿真平台上测试了三种算法的性能。DSCADA[39]、DVCP[40]、MINICPS[41]，以及PQL。我们的真实环境OURS。平均完成时间被选作性能指标。状态信息显示在表10中。

在这里插入图片描述

收敛性。在所有变量不变的情况下，我们首先在四个平台上运行这三种算法。如图7所示，在状态数量最多的MINICPS测试平台上，PQL算法的表现最好。QL运行40,000步，DQN运行35,000步，而PQL只运行25,000步。在状态数量最少的DSCADA测试平台下，PQL只需要106次迭代就能收敛，而QL和DQN都需要120次迭代。这是因为状态越多，迭代过程中需要的计算越多，计算复杂性就越高。一般来说，与QL和DQN算法相比，PQL算法的平均完成时间可以减少12.5%到37%。

在这里插入图片描述

图7 三种算法在不同测试平台上的平均完成时间

在这里插入图片描述

图8 不同数量学习者的PQL算法的平均完成时间

可扩展性。接下来，我们将通过改变独立学习过程的数量来检查该算法的可扩展性。如图8所示，当攻击者的数量改变时，PQL可以实现更好的性能。这是因为随着多个独立学习过程同时发生，PQL算法可以更快地收敛。值得一提的是，我们最多测试了20个独立的学习过程。在实验过程中，随着学习过程数量的增加，多个学习过程更新相关状态下的Q值的等待时间也会增加。然而，如果学习过程的数量超过20个，增加学习过程的数量将不会带来改善。

性能。图9显示了平均完成时间和学习过程数量之间的关系。加速趋势随着学习过程数量的增加而增加。对于有更多状态的测试平台MINICPS和DVCP，我们可以看到，当有20个独立的学习过程同时进行时，迭代次数可以最小化，可以达到最大的减少率。而对于状态较少的DSCADA和OURS，当学习过程的数量为10时，加速效果最好。当学习过程的数量超过20个时，由于多恳并行代理之间的同步开销增加，加速效果就会降低。

在这里插入图片描述

图9 在不同数量的学习过程中，平均完成时间的减少

在这里插入图片描述

图10 在不同数量的学习过程中，一个迭代过程的决策时间

同步化。图10显示了一个迭代中决策过程和多个平行学习过程之间的关系。随着状态数的增加，决策过程的持续时间也变长。当状态数超过10个时，学习过程的数量将被设定为20个，这可以达到更好的加速效果。当学习过程的数量被设定为30个时，由于多个学习过程之间的频繁同步，决策过程的时间会更长。此外，在单轮迭代中，PQL算法可以同步更新不同的不相关状态，这可以被认为是一个独立的过程[42]。因此，PQL算法的决策时间总是比QL算法的决策时间短。

6 总结

本文介绍了ICSs中基于游戏的多代理强化学习模型。具体来说，为了考虑网络攻击对物理控制过程的影响，网络和物理领域之间的相互作用被模拟成一个基于多属性的量化机制。此外，防御者和攻击者之间的竞争被建模为一个双人的随机游戏。该随机博弈被分析为防御者的最优策略。特别是，考虑到关于 "我 "的知识很少，"我 "就会选择 “我”。在真实的工业环境中，我们利用基于游戏的Qlearning算法来获得最优策略。我们开发了一种高效的并行Q-学习算法，通过同时从多个独立的学习过程中学习，快速获得最优策略。最后，仿真结果表明，所提出的方案可以有效地指导防御者选择正确的行动，与QL算法和DQN算法相比，平均完成时间减少了12.5%到37%。至于我们未来的工作，基于并行强化学习的防御策略的决定，我们将探索使用并行任务调度算法的攻击恢复问题。