利用大型语言模型和知识图谱设计安全的自动化系统-CSDN博客

本文链接：https://blog.csdn.net/2401_83148879/article/details/147423266

摘要：

本文探讨了在工业 4.0（I4.0）范式下，工业控制系统（ICSs）的数字化转型对工业企业保持竞争力的重要性，同时强调了网络安全作为推动器的作用。然而，通常在工程过程后期才实施的安全措施，往往导致成本高昂且复杂的部署。因此，本文关注工业控制系统中的“安全设计”原则，并促进其符合 ICS 安全标准，这些标准对于某些关键系统可能是法律强制要求的，或者被资产所有者采用以保护其资产。当前的合规方法需要安全专家手动操作，使得合规过程耗时且成本高昂。为了解决这一问题，我们提出了一种利用大型语言模型（LLMs）结合知识图谱的框架，以自动化设计阶段的两个主要元素：安全需求的解释和系统架构。我们的知识图谱增强型 LLM 框架将系统架构转化为人类自然语言，从而增强了各种安全分析的自动化能力，尤其是那些需要处理文本需求的分析。该框架通过问答界面，验证 IEC 62443-3-3（一个广泛使用的 ICS 安全标准）提供的适用安全需求是否符合系统设计。为了评估该框架，我们在一个用例的背景下准备了各种问题及其参考答案（由人类专家提供），并从多个指标上衡量了 LLM 的回答质量。此外，我们将该框架与基于形式化查询的基线方法进行了比较。结果表明，所提出的框架有效自动化了安全任务，并为非专家用户提供了一个用户友好的界面。

I.引言：

工业 4.0（I4.0）指的是工业控制系统的数字化转型，强调自动化、互联性和实时过程优化。这种转型由物联网、人工智能、网络物理系统、云计算、数字孪生等多种颠覆性技术推动，使系统能够相互交互和控制。将多种技术整合到工业网络环境中，需要在设计策略中考虑网络安全措施。成功的网络攻击不仅会影响商业模式和竞争力，还可能导致严重的安全后果。安全决策通常被推迟到工程过程的后期，这可能导致实施昂贵且复杂的安全部署。然而，更简单且有效的安全措施，如设计安全的网络架构或选择具有内置安全认证功能的组件，需要在工程过程的早期阶段做出决策。这种主动方法通常被称为“安全设计”。
安全设计需要不断地将需求与系统架构联系起来，以满足利益相关者的目标并符合 ICS 安全标准。由于需求可能在设计阶段发生变化，且架构需要通过迭代工作流程进行细化，将它们分开是低效的。本文关注两个主要挑战：
• 网络安全标准中的文本信息（如 IEC 62443）需要人类专家的努力来使用和解释。例如，验证 IEC 62443-3-3 的安全需求（以自然语言形式提供）对于给定系统是昂贵且耗时的，因为必须由安全专家手动完成。
• 安全不仅仅是附加功能，而是需要在系统的整个生命周期中涉及不同领域专家和整合各种信息来源。从设计阶段开始，贯穿实施和运行，甚至在系统退役时也是如此。
在这里插入图片描述 图一. 在工业控制系统（ICS）的背景下，处理安全要求和系统设计的两种主要方法。

如图 1 所示，可以采用两种主要方法：
(1).使用形式化或半形式化语言对文本信息（如安全需求和系统本身）进行建模，从而基于（半）形式化方法和本体论方法进行安全分析。

(2).用自然语言描述系统，并将这种描述与安全需求的文本表示一起用于通知大型语言模型（LLMs）以执行安全任务。

第一种方法已被深入研究过。我们发现这些方法在很大程度上依赖于建模方面的专业知识，而且进行安全分析很复杂，尤其是当涉及到那些可能存在多种不同解读的标准中的安全要求时更是如此。根据我们的文献综述，第二种方法（用自然语言描述系统及其架构）尚未被研究。凭借其类似人类的语言处理和生成能力，LLMs 可以彻底改变工业网络安全。因此，在本文中，我们将本体论与 LLM 驱动的安全框架集成。本体论和驱动的知识图谱的作用是为 LLMs 提供系统特定的信息。我们相信这种方法是有效的，因为 LLMs 已经被用于硬件安全、网络入侵检测和安全需求管理。此外，该框架接受本体论作为输入，允许整合安全领域内开发的众多本体论。这种整合增强了对各种安全方面的覆盖，并提高了互操作性。因此，本文旨在解决以下研究问题（RQs）：

• RQ1：如何将系统架构描述和安全需求纳入基于 LLM 的方法，以通过信息检索和明智决策来提高安全性？
• RQ2：如何将本体论用作高效且精确的信息来源？
• RQ3：LLMs 如何促进 IEC 62443 合规性，这种合规性是否可靠？

本文的主要贡献是一个 “设计即安全” 框架，它整合了一个将工业控制系统（ICS）架构和安全要求形式化的领域知识图谱。该框架为大语言模型（LLMs）提供了关键背景信息，使它们能够针对特定应用的用户查询做出有效回应。在工业控制系统的设计阶段，它增强了大语言模型理解、推理以及生成与系统架构和安全要求相关文本的能力，尤其是与国际电工委员会 62443 标准（第 3-3 部分）相一致的文本。通过利用知识图谱转换和上下文检索，该框架让大语言模型能够执行复杂的安全任务，比如验证安全要求和开展审计工作。

我们所开发的软件工具提供了一个用户友好的自然语言界面，使最终用户（包括架构师、安全专家和需求工程师）能够与系统进行无缝交互。重要的是，该框架支持更广泛的用户群体，包括那些对知识图谱没有深入了解的用户，让他们能够直观有效地使用该系统。

Section II 回顾了当前的技术现状，探讨了工业控制系统安全方面的现有挑战、知识图谱和大语言模型在工业控制系统网络安全中的应用，并找出了关键的研究空白。Section III 着重详细阐述了基于 IEC 62443 标准创建本体的过程，并进行了质量评估。Section IV 介绍了由大语言模型驱动的安全框架，涵盖了知识图谱信息检索、自然语言上下文生成以及从 IEC 62443-3-3 标准中获取上下文信息的内容。Section V 展示了对该框架的实验评估。最后，Section VI 和Section VII 分别进行了讨论和总结。

II.现有研究综述（State of the Art）

A. ICS 安全的当前挑战

传统的 ICS 是为了在隔离环境中运行而设计的，主要关注系统功能，几乎没有或根本没有考虑网络攻击。然而，随着信息和通信技术的进步以及功能需求的增加，越来越多的 ICS 从隔离网络转向公共网络，并整合了最初并非为 ICS 环境开发的技术，例如云计算。这种转变使得不安全的设备暴露在公共网络中，增加了网络攻击的风险。近年来，针对 ICS 的网络攻击频繁发生。

在 ICS 环境中，安全性和安全性可以相互影响。例如，安全加密方法导致的通信延迟可能会威胁到安全功能的可用性。这表明安全并不是一个可选功能，而是在需要时才添加的。文献分析了一种名为 Stuxnet 的著名网络攻击。在这次攻击中，系统对威胁的脆弱性部分是由于反馈控制回路中缺乏适当的认证和结果验证方法。如果在设计阶段对系统架构进行彻底的记录和分析，这个问题可能会被发现。因此，研究人员试图将安全工程整合到系统开发过程的开始阶段，这一概念被称为“安全设计”。此外，标准化在工业网络安全中起着关键作用。作为广泛使用的 ICS 安全标准，IEC 62443 提供了多个系列，每个系列都专注于 ICS 的特定方面及其相关利益相关者。该标准为安全系统开发提供了指导和要求。ICS 和网络安全领域的专家知识短缺以及手动工作所需的精力使得合规成本高昂且复杂。

B. 知识图谱在 ICS 网络安全中的应用

ICS 网络安全的一个挑战是安全是一个跨领域的问题，无法轻易地划分为离散的系统组件。此外，所需的知识由不同领域的专家持有。本体论方法可以创建一个包含专家知识和 ICS 安全标准提供的特定领域信息的知识体系。比如由工业控制系统（ICS）安全标准所提供的信息。

本体论在哲学中是“存在的科学”，在计算机科学中指的是一个领域内对象的正式结构及其相互关系。其目的是独立于特定应用来形式化和管理对象，使得它们能够在同一领域的各种应用中重用。本体论有两个关键功能：（1）启用自动推理，推理引擎可以从中得出逻辑推论；（2）整合来自不同来源的知识。基础本体论表示在添加特定应用的数据或实例之前的本体论结构。填充本体论涉及添加数据或实例，从而形成知识图谱。在本文中，“本体论”和“知识图谱”这两个术语可以互换使用。

本体论被用于自动化安全需求分类、评估网络安全设计和风险评估。文献正式化了 ICS 安全标准（如 IEC 62443），而文献有助于安全验证。文献提出了一种基于 IEC 62443-3-2 的自动化风险识别方法。这些研究表明了本体论在形式化 ICS 和安全标准中的作用。

在我们之前的工作中，我们提出了一个本体论来建模 ICS 架构和安全需求以执行推理任务。然而，出现了两个限制：（1）创建推理规则需要图专家的知识，限制了可用性；（2）输出结果不容易被非专家理解。在本文中，我们旨在利用 LLMs 来简化推理查询，并基于存储在本体论中的信息提供更直观的响应。

C. 大型语言模型（LLMs）在网络安全中的应用

大型语言模型（LLMs），例如 ChatGPT和 Llama，通过利用大规模数据集和先进的神经网络架构，在人工智能领域取得了技术进步。LLMs 特别为网络安全开辟了新的途径，以应对不断扩大的威胁形势。研究人员越来越多地将 LLMs 用于网络安全应用，包括安全日志解析、分析和识别网络安全威胁、硬件安全以及自动化网络安全警报分析中的决策过程。

将 LLMs 适应于安全应用至关重要，尽管存在两个关键缺点。它们可能会引入严重的安全风险，例如当第三方获得敏感数据时的信息泄露，以及 LLM 基础工具可能会在后续数据训练和微调过程中使用输入数据的可能性也引起了批评。鉴于与基于 LLM 的应用相关的重大攻击风险，对于处理敏感信息的系统，不建议使用商业云基础的 LLMs。因此，对于这些应用，建议使用个人和本地 LLMs。

与基于 LLM 的产品相关的风险应该被管理。为此，一些标准化机构提供了人工智能应用的风险管理框架和要求，例如 NIST-AI-600-1 和 ISO42001。核心思想是识别用于自动化 ICS 安全需求的 AI 模型中潜在的风险，包括数据质量问题、模型偏差和潜在的安全漏洞。

D. 整合 LLMs 和知识图谱

在Section II-B 和 Section II-C 中，我们讨论了知识图谱和 LLMs 在两个不同研究方向上的网络安全应用。将这两个领域结合起来的想法越来越受到关注。在 [35] 和 [36] 中，作者提出了一种使用 LLMs 填充本体论以基于特定领域的数据创建知识图谱的方法。文献 [37] 和 [38] 采用了类似的方法，利用 LLMs 构建威胁情报知识图谱。这些方法声称可以减少手动工作，而手动工作可能会因人为错误和偏见而在本体论填充过程中受到影响。

LLMs 通常缺乏组织特定的知识，导致答案不准确或不完整。存储这些信息的知识图谱可以用来增强 LLMs 对特定领域上下文的理解。文献 [39] 设计了一个基于知识图谱的检索增强型生成（RAG）框架，用于生物医学应用。当 LLM 被问及超出训练数据或需要当前信息的问题时，RAG 通过从外部知识库中检索相关信息来帮助 LLMs。因此，RAG 有效地使 LLMs 能够根据上下文进行响应 [40]。

检索相关上下文是使用知识图谱与 LLMs 结合的核心要素。在 [41] 中，提出了一种算法，基于输入提示在图中探索节点和边，以确保检索到所有相关信息。在另一篇论文 [42] 中，作者将图结构数据编码为文本，以便 LLMs 进行图推理任务。该论文还表明，将图转换为文本的方法会影响 LLM 响应的质量。

我们对现有研究的分析发现了一个研究空白，即在 ICS 安全设计阶段采用 LLMs，涵盖系统架构和安全需求。此外，将 LLMs 用于与 IEC 62443 一致的推理和信息检索尚未得到探索。随着现有的网络安全标准和即将出台的法规（如网络安全弹性法案），推进支持合规的工具至关重要。

III. 本体论开发（Ontology Development）

A. OWL 本体论

资源描述框架（RDF）是一个用于展示链接数据的广泛框架。RDF 包括在 RDF 数据模型中的具有特定属性的类，为本体论描述提供了基本组件，使得数据能够在不同应用、领域和平台之间以结构化和有意义的方式共享和重用。Web 本体语言（OWL）类似于 RDF，但具有更丰富的词汇表。该词汇表由本体论提供的特定类、属性和关系组成。这一系列术语为在特定领域内解释信息提供了一种结构化方法，使得数据能够以机器可理解的格式进行链接和交换 [44]。

OWL 可以将数据及其关系表示为一系列三元组，每个三元组包括：

• 主体（Subject, S）：被描述的实体。
• 谓语（Predicate, P）：主体和对象之间的属性或关系。
• 宾语（Object, O）：与主体相关的值或实体。

例如：
< Sensor(S) >< hasPort（P）>< USB(O) >
（Sensor：传感器；hasPort：具有XXX端口；）
这个三元组表示“传感器具有 USB 端口”。本体论本质上是一个图结构，其中节点表示主体和对象（例如类或数据值），边表示谓语（关系）。

在这里插入图片描述图 2. 基于国际电工委员会（IEC）62443 标准设计的安全本体，用于将安全要求和架构构件形式化。绿色元素与安全要求相关，而蓝色元素根据 IEC 62443 的术语对工业控制系统（ICS）中的架构构件进行建模。

在这里插入图片描述 表 1. 用于构建本体的概念和属性，这些概念和属性可在 IEC 62443-3-3 中找到，或者由专家在本体中进行定义。

B. 基于 IEC 62443 的安全本体论

图 2 展示了用于形式化系统架构工件和安全需求的本体论模型的核心部分，特别是 IEC 62443 的第 3-3 部分，该部分为集成商角色提供了系统级安全需求。与系统架构相关的不同元素以蓝色显示，而与安全需求相关的元素以绿色显示。

根据 IEC 62443，ICS 网络必须划分为“区域（Zones）”，并通过“通道（Conduits）”连接，通道由路由器和交换机等通信设备组成。在 ICS 的背景下，“资产（Asset）”指对组织有价值的事物，包括“硬件（Hardware）”、“软件（Software）”或“人员（Humans）”等。每个区域和通道都有一个数值能力“安全等级（SecurityLevel_C）”。安全等级描述了资产能够提供的保护级别，或者每个区域或通道所需的保护级别。本体论对 IEC 62443 引入的系统最重要元素进行了建模，例如“通信通道、角色、端口、会话、防火墙、账户和权限”。

图 2 中的绿色实体代表为形式化 IEC 62443-3-3 中的“系统安全需求”而提出的本体论元素（系统安全需求）。该标准的第 3-3 部分定义了七个基本需求集，每个需求都有一个目标“安全等级（SecurityLevel_T）”，范围从 0 到 4。需求包括“理由（Rationale）”和可能的“增强（Enhancements）”。增强需求对应更高的安全等级；例如，多因素认证将安全等级提升到 3，而单因素认证的安全等级为 1。

通过“受影响资产（AffectedAsset）”的概念来建模安全需求与系统架构之间的关系。受影响资产是指受安全需求所要求的安全功能影响的资产。例如，当 ICS 需要操作员认证时，操作员就成为受影响资产。

C. 本体论的质量评估

可以从不同角度评估本体论的质量。本体论的语法质量取决于其在开发过程中使用的语法的正确性和清晰度。我们使用 Protégé 实现了本体论，Protégé 是一个免费且开源的本体论编辑器和知识管理系统，可以从以下网址下载：https://protege.stanford.edu/，它包括推理器以验证语法的正确性。由于我们实现的本体论没有错误，我们可以得出结论，其语法是正确且清晰的。

然而，在本文中，语义质量更为重要，因为它增强了本体论与 LLMs 一起使用的效率，这是 RQ2 所针对的目标，尽管评估起来具有挑战性。语义质量衡量本体论中使用的概念的有意义性。由于本体论涵盖了 IEC 62443 的概念、需求和架构指导，它不仅应该是有意义的，还应该与 IEC 62443 标准保持一致。此外，这将帮助 LLMs 正确理解 IEC 62443 背景下的系统。也就是说，本体论应该能够被 IEC 62443 的用户理解。我们通过可解释性（Interpretability, IP）指标 [46] 来衡量这种质量。IP 指标通过将本体论中直接从 IEC 62443 使用的概念和属性的数量除以本体论中使用的总概念数量来计算。如表 1 所示，我们确定了 67 个概念和属性中有 44 个与 IEC 62443-3-3 的措辞和含义一致，得出 IP 为 0.66。更高的 IP 预计将增强 LLMs 在 IEC 62443 背景下的响应能力。因此，本体论中一致使用与 IEC 62443 一致的概念至关重要。

在这里插入图片描述

图3. 一种设计即安全（Security-by-design）框架，该框架对领域知识图谱和用户问题进行编码，以便借助大语言模型（LLMs）找到答案。

IV. 基于 LLM 的安全框架与知识图谱集成

图 3 展示了一个旨在支持 ICS 设计阶段的安全专家、架构师和需求工程师的框架。该框架允许用户用自然语言提问，并以自然语言接收回答。虽然该框架旨在用于设计阶段，但也可以适应系统的其他生命周期阶段。在这个框架中，系统架构和安全需求通过 OWL 本体论来表示。当用户用自然语言提问时，将从本体论中检索相关概念，以及从 IEC 62443 标准中提取的对应术语和定义。最终的提示将结合用户的输入、与问题相关的系统特定细节、从知识图谱中检索到的上下文以及适用于用户查询的标准定义的术语和定义。所有这些信息都被增强以创建一个自包含的提示。

在我们之前的工作 [8] 中，我们展示了如何有效地使用本体论方法对 ICS 架构和安全需求进行建模。因此，对于本文，我们假设本体论已经用相关数据填充，并且可以查询知识图谱。

从数学角度描述问题，目标是找到一种方法来编码用户问题 Q 和知识图谱 G，使得 LLM f（f:W→W）将返回相应的答案 A=f(Q,g(G),D)。W 是 LLM 在训练期间使用的大型标记空间，g 是知识图谱的编码函数，它将基于图的信息编码为自然语言，而 D 是 IEC 62243 标准中相关的定义。根据 [42]，编码函数 g(⋅) 在 LLMs 生成答案的质量中起着关键作用。

A. 信息编码（1）：信息检索

当用户对正在研究的系统进行查询时，LLMs 可能无法提供满意的回答，因为它们在训练期间没有看到过这些特定信息。因此，向 LLMs 提供所需信息是必要的。由于提示的标记大小限制以及当提示变得更大时性能下降，我们应该选择最有可能对回答问题重要的信息。例如，当用户询问特定区域时，基于“区域”节点及其邻近区域中的信息找到答案的概率更高。

零样本提示（当 LLM 在没有任何特定训练示例或该任务的先前演示的情况下回答问题时，称为零样本提示）用于识别知识图谱中与问题相关的部分。为此，我们创建一个组合提示，将用户的问题与本体论中的类列表结合起来。然后使用零样本提示来识别相关类。例如，如果用户问：“哪些安全需求使多因素认证变得重要？”LLM 会识别“SystemSecurityRequirement”类作为一个可能提供有价值上下文的相关类。

接下来，使用 SPARQL（SPARQL 协议和 RDF 查询语言）查询根据前一步识别的类从知识图谱中检索信息。我们不仅收集指定类的实例信息，还收集它们的邻近实例的信息。邻近实例是指与初始实例有关系的实例。结果以 RDF 三元组的形式存储。

然而，这种策略可能导致检索到大量标记。考虑到 LLMs 可以处理的标记数量有限，我们必须专注于检索最重要的信息。参考文献 [47] 提出了一种假设，即图表现出的结构特征可能反映概念和关系对领域的相对重要性。它表明，接近中心性度量可以有效地用于从图中提取或过滤重要数据。设 G=(V,E) 为一个图，其中 V 表示节点集合，E 表示边集合 {u,v}，且 u,v∈V。我们用在这里插入图片描述表示从 u 到 v 在 G 中的距离，即从 u 到 v 的最短路径上的边数（如果从 u 到 v 没有路径，则设
=∞）。对于每个节点 u，其接近中心性定义如下 [48]：

如算法 1 的第 14 行所示，我们使用这个度量来确保检索到的标记数量低于标记限制。

B. 信息编码（2）：将信息转换为人类自然语言

LLMs 不仅可以理解人类自然语言，还可以理解它们在训练期间学习过的一些机器语言（例如 Python、XML）。这意味着 LLMs 可以直接在本体论的 XML 格式上操作。然而，存在三个挑战。首先，RDF 的 XML 格式是知识的计算机表示形式，因此对于非专家用户来说难以理解。其次，尽管本体论具有清晰的语义结构和语法，但用户定义的类和关系可能对 LLMs 来说因格式简洁而产生歧义。例如，我们定义了一个名为“HostDevice”的类，它旨在表示运行操作系统或软件应用程序的所有设备。然而，这个术语可能被 LLMs 不同地解释。第三，LLMs 在处理和生成的输入/输出大小上存在限制。例如，Llama-2 7B 语言模型可以处理的最大标记数为 4096，而即使是小的知识图谱也容易超过这个限制。本研究中开发的知识图谱在其 XML 格式中包含大约 50,000 个标记。

为了克服这些挑战，我们将上一步检索到的 RDF 三元组转换为句子，使用表 2 中的句子模板。这些模板不仅涵盖了 OWL 词汇表，还包括图 2 中的类、关系和数据属性。句子模板应考虑以下内容：

• 类和关系映射：本体论由类、数据属性和关系组成。在转换过程中，我们确保这种结构得以保留并转换为 LLM 更容易理解的格式。例如，像“isConnectedToAsset”这样的关系应转换为自然语言句子。
• 层次结构：本体论是分层的。我们在文本格式中保留层次结构。例如，“Sensor 是 Hardware 的子类”可以解释为层次结构的一部分。
• 基数和约束：包括基数和约束很重要，以便 LLM 能够更好地理解和推理。例如，“每个系统至少应有一个区域”。
• 注释：使用 OWL 语言，每个实体和关系都可以用注释来解释。包括注释有助于 LLM 理解某个事实或信息。

C. 提供 IEC 62443 的上下文

本文的一个关键目标是简化 ICS 安全标准（特别是 IEC 62443-3-3）的合规性检查过程。第一步是创建一个采用标准推荐术语的本体论。如表 1 所示，我们旨在使用与 IEC 62443 中一致的词汇表。下一步是从 IEC 62443 的第 3-3 部分填充本体论中的安全需求。然而，LLM 可能对术语的预期含义一无所知。因此，我们需要为每个提示提供此上下文。

如前所述，最终提示中的标记数量必须有限，且没有可能向最终提示添加许多标记。句子转换器模型（用于嵌入的机器学习模型）可以将文本（如句子和段落）转换为称为密集向量的数值表示。这些向量通常是固定大小的，这意味着无论输入文本的长度如何，它总是被映射到相同大小的向量。嵌入捕获了句子或段落的含义，然后可以用于搜索或检索文本。例如，使用 all-MiniLM-L6-v2 库，句子“All human users shall be authenticated”将被转换为一个密集行向量 V，包含 384 个数值元素，V=[−0.01273,0.01560,−0.04863,−0.096506,…]。向量数据库用于高效地存储、索引和查询这些嵌入，以执行语义搜索和上下文检索等任务。

如图 3 所示，我们将 IEC 62443-3-3 标准的核心术语和定义纳入其中，并对知识图谱中派生的句子进行相似性搜索。这确保了从标准中检索并整合到最终提示中的所有相关信息。

因此，最终的提示由三个元素组成：（1）用户查询；（2）从知识图谱中检索并使用表 2 转换为自然语言的信息；（3）通过从 IEC 62443 - 3 - 3 中搜索相关术语和定义获得的附加上下文。这些组件被组合起来并输入到大型语言模型中。该框架在知识图谱的开发过程中采用统一的术语和定义，以确保信息的一致性。图 9 展示了一个包含上述元素的示例提示。

D. 实现

基于图 3 所示的框架，实现了算法 1。对于涉及在本地部署 Llama-2 7B 模型的实验，所使用的系统是一台配备第 13 代英特尔 ® 酷睿™ i7-13700H 处理器（2.40 GHz）、16.0 GB 内存以及 64 位 Windows 11 操作系统的计算机。

当用户提出一个问题时，系统首先加载相关的本体类，并使用 Llama-2 7B 模型进行零样本提示，以识别最相关的类，这些类通过接近中心性度量进行优先级排序。执行 SPARQL 查询，以检索这些类的资源描述框架（RDF）三元组，以及它们在本体中的相邻实例，从而扩大相关信息的范围。然后，使用预定义的模板将检索到的 RDF 三元组转换为句子，并执行余弦相似度搜索，以识别与用户查询相似的术语和定义。将原始问题、生成的句子以及相似的术语组合成一种增强的输入格式，然后由 Llama-2 7B 进行处理，以生成最终的回复。这种方法确保回复既具有上下文信息，又与结构化的本体数据相一致。

整个实现过程是用 Python 完成的；然而，由于项目资金提供者的所有权问题，我们无法展示或发布代码库和本体。

在这里插入图片描述 图4. 所提出用例的图示化通用系统架构。该用例是使用图2中所示的本体进行建模的。通过展示与 “防火墙1” 相关的模型元素来阐述建模过程。

在这里插入图片描述
表2. 将三元组转换为文本句子的句子模板。模板中蓝色的元素是可替换的。

在这里插入图片描述

V. 实验与评估（Experiment and Evaluation）

A. 用例描述

图 4 所示的图表展示了一个用于用例的通用系统架构，该用例包含一个协作机器人（Cobot）应用。它展示了资产、它们的类型、相互连接以及网络设备。该用例是基于 Purdue 模型设计的，这是自动化领域中一个广泛使用的框架，关注于通过分割系统来增强安全性。例如，网络中的非军事化区域（DMZ）在网络安全性中充当一个隔离的中间层，它将组织的内部网络与外部的、不可信的网络（如互联网）分隔开来。关键资产，如传感器和历史服务器，被包含在内，以及自动化领域中常见的各种网络层。

重要的是要注意，系统架构建模和安全需求的具体细节在本文中没有讨论，因为这些已经在我们之前发表的论文 [8] 中展示过。总之，该系统从不同角度进行建模，以捕捉不同方面，包括资产、网络和访问权限。随后，这些来自不同模型的信息被用来填充本体论。

B. 客观评估

为了客观地评估该框架，我们让该领域的安全专家为我们提供了一份基于用例和 IEC 62443 的问题列表，并附上参考答案。这些问题分为三种类型：（1）开放式问题，旨在鼓励深入思考和讨论；（2）多项选择题，考察 LLM 回忆特定信息的能力；（3）封闭式问题，可以用特定且有限的回答来回答。与封闭式和多项选择题相比，开放式问题的评分更为复杂，且存在一定的主观性，因此在评估中，封闭式和多项选择题的风险较低。为了评估 LLM 的回答，我们使用了表 3 中所示的指标。需要注意的是，并非所有问题类型都可以通过单一指标来评估。准确性指标可以使用公式（2）来计算，适用于多项选择题和封闭式问题。
在这里插入图片描述
即：

回答长度指标只能计算为回答中的标记数（或单词数）。较短的回答可能表明简洁性，但也可能暗示缺乏必要的细节。相反，较长的回答可以提供更多信息，然而，它们可能会因为过于冗长而使关键点被过多的细节所掩盖。因此，我们测量生成的回答与参考回答在长度上的接近程度。公式（3）展示了如何计算这个指标。
在这里插入图片描述
即：

其中Lg是生成回答的长度，是Lr参考回答的长度。

N-gram 是从给定文本序列中提取的连续序列项 [50]。N-gram 之间的重叠显示了生成回答与参考回答之间的相似性，如公式（4）所示。
在这里插入图片描述
即：

事实一致性评估 LLM 输出与参考回答中可验证事实的准确性 [51]。在我们的框架中，此指标确保生成信息的真实性，例如，在被问及“Zone1”中的资产时，能够准确识别出“位于 Zone1 的控制器”。公式（5）展示了如何计算此指标。在本文中，进行了手动计算。
在这里插入图片描述
即：

语义相似性度量在计算机科学的许多应用中都至关重要，它有助于评估两个概念在意义上的相似性，而不是表面特征。在我们的框架中，语义相似性用于评估 LLM 生成的回答与参考回答之间的相似性。这种方法强调语义内容，忽略词汇选择或句子结构的差异，专注于底层含义 [52]。为了衡量回答的语义相似性，我们使用句子转换器（all-MiniLM-L6-v2）将生成的回答和参考回答嵌入到数值向量中，同时捕获句子的含义。余弦相似度计算是一种用于确定两个向量相似性的方法，通过测量它们在多维空间中夹角的余弦值。两个向量 A 和 B 之间的余弦相似度计算公式如下：
在这里插入图片描述
即：

其中 A⋅B 是向量 A 和 B 的点积，||A|| 是向量 A 的大小（或范数），||B|| 是向量 B 的大小。因此，余弦相似度等于语义相似度。图 5 展示了一个开放式问题的用户界面，该界面旨在方便与所提出的框架进行交互。通过零样本提示，选择了以下类：“Zone, Firewall, Conduit, Permission, and SystemSecurityRequirement”。预定义的 SPARQL 查询检索了与这些节点及其邻近节点相关的图中的所有信息。总共从知识图谱中获得了 109 个句子和 9 个来自向量数据库的相关定义。然后将 Llama-2 7B 对增强提示的回答与专家提供的参考回答进行比较，并自动计算相关指标。

在这里插入图片描述 图5. 根据所提出的框架设计的用户界面，该界面允许用户提出问题并获得回复。

图 5 展示了一个用户界面，该界面根据所提出的框架设计，允许用户提问并接收回答。通过零样本提示，选出了“Zone, Firewall, Conduit, Permission, and SystemSecurityRequirement”这些类别。预定义的 SPARQL 查询检索了与这些节点及其邻近节点相关的图中的所有信息。总共从知识图谱中获得了 109 个句子和 9 个来自向量数据库的相关定义。然后，将 Llama-2 7B 对增强提示的回答与专家提供的参考回答进行比较，并自动计算相关指标。

为了评估框架的性能，我们设计了 30 个问题，包括 15 个开放式问题、10 个封闭式问题和 10 个多项选择题。评估结果如表 3 所示。Llama-2 7B 模型在不同类型的问答中表现出色，多项选择题和封闭式问题的准确率达到了 90%，显示出其在结构化格式问题上的强大性能。在开放式问题中，模型的事实一致性达到了 75%，语义相似性达到了 79%，表明其能够在各种场景（如时间相关问题、假设问题和推理问题）中提供相关且准确的信息。然而，N-gram 重叠得分（34%）和长度相似性（67.5%）表明，尽管模型能够捕捉到关键内容，但并不总是能与参考答案的措辞或长度完全匹配。总体而言，模型在评估的指标中表现稳健。

在这里插入图片描述 表 3. 客观指标及其对不同类型问题的适用性。结果来自 Llama-2 70 亿参数（7B）模型（⊗ 表示不适用）

C. 基于场景的评估

对所提出的框架进行基于场景的评估涉及创建特定的情况或任务，以模拟模型在现实世界中的应用。在这种方法中，系统设计者或架构师概述了两个场景，其中所提出的框架被期望提供支持。

• 审计场景: 审计是系统性地检查和评估一个系统以确保其符合既定标准的过程。作为 IEC 62443-3-3 合规性的一部分，需要审计文档。例如，该文档应提供要认证的系统的详细描述。为此，所有传入和传出的通信都应被描述和记录。在这个场景中，我们向框架提出了一个问题，要求记录 DMZ 区和监督区之间所有设备之间的传入和传出通信。从图 6 可以看出，LLM 能够以有组织的方式成功报告请求的信息。这将有助于加快与 RQ3 一致的合规过程。

• 维护场景: 在这个场景中，需要建立一个维护会话，以便维护人员可以远程执行维护任务。所提出的框架被要求指导如何为此目的建立正确的权限，并提供安全见解。通过分析图 7 中的响应，可以清楚地看出 LLM 对领域知识有很好的理解。根据图 2 中的本体论，LLM 有效地指导了系统的术语和模型。例如，它准确地认识到系统中的访问权限通过角色分配来操作，指出每个权限都与特定的终止日期和时间相关联，并且通信通道应该被加密。

尽管每个场景只展示了一个问题，这可能限制了结论的普遍性，但该框架可以通过利用知识图谱中存储的应用特定信息来处理同一场景中的各种问题。例如，它可以处理更广泛的维护场景，如建立远程访问权限或许可，或在维护期间评估系统完整性。在所提出的框架中，LLMs 利用了知识图谱中存储的信息。本体论越全面，该工具在协助不同场景方面就越灵活。如表 1 和图 2 所示，IEC 62443-3-3 中的相关概念和关系被直接纳入本体论设计中，确保该框架能够处理与 IEC 62443-3-3 相关的不同安全场景。

在这里插入图片描述
图 6. 所提出框架在审计文档编制方面的应用。该应用要求记录两个区域之间的通信细节。

在这里插入图片描述
图7. 系统架构能够通过建立一个维护场景来评估系统设计的安全性，以查明是否存在缺陷。

D. 可用性比较

本节评估的焦点是比较我们提出的方法与通常用于从图中检索信息的传统查询语言方法的可用性。可用性被定义为特定用户在特定环境中实现其目标的有效性、效率和满意度 [53]。我们基于图 4 中所示的用例建立了一个信息检索场景。五名用户被要求使用以下两种方法确定“控制网络”区域中的操作员被允许执行的行动类型：（1）SPARQL 查询语言，以及（2）我们为所提出的框架设计的用户界面，如图 5 所示。

在完成任务后，用户被要求回答 10 个关于他们使用这两种方法的经验的问题。结果显示，平均而言，我们的基于 LLM 的用户界面比 SPARQL 更容易使用（83%），并且提供了更有意义的回答（78%）。此外，所有用户都表示更愿意在实际设置中使用我们的工具。图 8 比较了这两种方法。编写 SPARQL 查询需要专门的技能，而许多用户可能缺乏这些技能。此外，每个查询都需要大量的努力，这使得这种方法不如我们提出的基于自然语言的框架灵活。表 4 展示了 SPARQL 和基于 LLM 的安全框架之间的比较。SPARQL 需要对查询语法有专门的知识，而我们提出的框架支持自然语言查询，使其对非专家用户更加友好。尽管 SPARQL 在查询大型知识图谱方面表现出色，但我们的框架在这些任务中效率较低。例如，在图 8 中，SPARQL 在不到 0.1 秒内返回响应，而我们开发的软件工具生成响应需要 3.2 秒。在准确性方面，如果查询正确编写，SPARQL 可以提供高精度的结果，但由于 LLMs 的固有限制，我们提出的框架可能会产生较不准确的结果。最后，用户对我们的框架的满意度更高，主要是因为其易于使用，与 SPARQL 的复杂性相比。

VI. 讨论与挑战（Discussion and Challenges）

尽管大型语言模型（LLMs）在各个领域和应用中具有巨大的潜力，但它们仍然是一个不断发展且存在内在限制和弱点的领域，这些需要被讨论。

A. 幻觉（Hallucinations）

幻觉是指 LLM 提供虚假或无意义信息的情况，就好像这些信息是事实一样。这在网络应用中是一个严重的问题，引发了对 LLM 生成信息可靠性的严重担忧。LLMs 是在海量数据上进行训练的，这些数据可能来源于虚构故事和未经验证的数据。因此，真实信息可能会被淹没。模糊的提示是幻觉的另一个来源。例如，使用缩写会使 LLM 产生多种解释，从而导致潜在的幻觉 [54]。我们的框架通过提供基于本体论的一致信息，确保 LLM 能够访问特定领域的数据，减少训练中的不一致性。为了减少幻觉的可能性，提示使用简单的句子模板，而不是 RDF 三元组。

B. 推理能力（Reasoning Capability）

LLMs 在自然语言处理、问答和创造性任务等多个领域表现出色。然而，它们是否真正具备逻辑推理能力仍然是一个关键的研究领域。尽管一些研究表明它们的性能令人印象深刻，但深入分析揭示了 LLMs 的推理过程更接近于概率模式匹配，而不是形式逻辑推理 [55]。例如，LLMs 在同一数学问题的不同实例上的表现可能大不相同，这表明它们是在寻找模式，而不是进行形式推理 [56]。在本文中，尽管我们更关注信息检索而不是复杂的推理任务，但我们通过使用句子模板来保持提示的一致性。

C. 可扩展性（Scalability）

尽管我们相信所提出的解决方案能够满足小型 ICS 的安全需求，但使用该框架构建的解决方案的可扩展性可以进一步增强，以使其在更大的系统中更具实用性。随着本体论扩展以涵盖系统的不同方面（如风险管理、事件响应计划和各种安全标准），手动构建句子模板（如表 2 所示）可能会变得具有挑战性。因此，需要简化或自动化构建句子模板的过程。此外，当向查询中添加更多的上下文数据时，LLMs 可能会因注意力范围的限制而难以高效处理长上下文，从而导致响应速度变慢或答案质量下降。此外，LLMs 能够处理的标记数量是有限的。通过有效的上下文管理，LLMs 可以专注于关键元素。利用更先进的图查询、上下文摘要和图分析方法可以提高上下文的质量。

D. 使用 LLMs 的安全问题（Security Concerns of Using LLMs）

使用基于 LLM 的产品需要管理风险。一些标准化机构提供了针对基于人工智能的应用的风险管理框架和要求，例如 NIST-AI-600-1 和 ISO 42001。对于我们的框架，我们可以使用这些框架来识别使用软件工具在 ICS 环境中做出安全相关决策的潜在风险。例如，风险可能包括知识图谱中的数据质量问题或 LLMs 的幻觉导致的不良安全决策。

此外，开发的软件工具的输出必须是透明的且可解释的，使用户能够理解安全决策背后的推理。在我们的框架中，知识图谱作为 LLMs 的事实基础，提高了它们的推理能力和上下文理解能力。这种整合提供了以下好处 [57]：

• 使用知识图谱验证和交叉检查 LLMs 生成的信息，防止不准确信息。

• 提供透明且可重现的答案，因为 LLMs 的决策理由通过知识图谱变得清晰。

在这里插入图片描述 图8. 左侧：为检索信息而创建的SPARQL查询；右侧：我们用于以自然语言提出相同查询的用户界面。

在这里插入图片描述 表 4. 基于问答任务的 SPARQL 与由大语言模型（LLM）驱动的安全框架的可用性比较。

VII. 结论与未来工作（Conclusion and Future Work）

在本文中，我们提出了一种针对工业控制系统（ICS）的“安全设计”方法，该方法利用基于大型语言模型（LLM）的框架与知识图谱相结合，同时考虑符合 IEC 62443-3-3 标准。

为了评估该框架的有效性，我们准备了 30 个问题，并附上由领域专家协助开发的参考答案。Llama-2 7B 模型在多项选择题和封闭式问题上达到了 90% 的高准确率，并在开放式回答中表现出良好的事实一致性（79%）和语义相似性（84%）。然而，它在精确措辞（32%）和长度相似性（69%）方面的得分较低。总体而言，该模型在评估的指标中表现出色。此外，我们通过两个场景展示了所提出的框架能够有效地协助系统设计者在设计过程中以及生成符合 IEC 62443 要求的文档。与基于形式化查询的信息检索方法相比，我们的框架更便于最终用户使用。

本框架是针对 IEC 62443-3-3 和 ICS 设计的，提供了一个能够被更广泛用户群体使用的问答界面，并且具有较高的用户满意度。然而，重要的是要强调，该概念是广泛且可适应的，使其适用于各种工业部门以及安全和非安全标准，只要知识以知识图谱的形式存在。例如，该框架可以扩展到产品安全领域，或者与 IEC 62443-4-2 对齐。

在未来的工作中，我们将通过采用 NIST-AI-600-1 和 ISO 42001 的指导方针来解决与所提出的框架相关的安全风险。在开发过程中，基于 LLM 的 ICS 安全工具可以通过整合人机协作工作流来实现关键决策的人类验证机制。本体论可以用来定义正式的安全约束，确保符合操作标准，同时启用基于本体论的可追溯性，以记录 AI 决策以便进行审计。应该嵌入偏差检测算法以监控和减轻 LLM 驱动的安全建议中的偏差。最后，必须实施可解释人工智能（XAI）技术，以提供透明、可解释的见解，使人类操作员能够理解和信任 AI 辅助决策。