论文翻译:A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly

A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly
https://www.sciencedirect.com/science/article/pii/S266729522400014X

关于大型语言模型(LLM)安全性和隐私的调查:好的、坏的和丑陋的

摘要

大型语言模型(LLMs),如ChatGPT和Bard,已经彻底改变了自然语言理解和生成。它们具有深度语言理解能力、类似人类的文本生成能力、上下文意识和强大的问题解决技能,使它们在各个领域(例如搜索引擎、客户支持、翻译)中变得不可或缺。同时,LLMs也在安全领域获得了关注,揭示了安全漏洞并展示了它们在安全相关任务中的潜力。本文探讨了LLMs与安全性和隐私的交集。具体来说,我们研究了LLMs如何积极影响安全性和隐私,与它们使用相关的潜在风险和威胁,以及LLMs内部的固有漏洞。通过全面的文献综述,本文将论文分类为“好的”(有益的LLM应用)、“坏的”(攻击性应用)和“丑陋的”(LLMs的漏洞及其防御)。我们有一些有趣的发现。例如,LLMs已被证明能够增强代码安全性(代码漏洞检测)和数据隐私(数据保密性保护),超越了传统方法。然而,它们也可以因其类似人类的推理能力而被用于各种攻击(特别是用户级攻击)。我们已经确定了需要进一步研究的领域。例如,对模型和参数提取攻击的研究是有限的,并且通常是理论上的,受到LLM参数规模和保密性的阻碍。安全指令调整,这是一个最新发展,需要更多的探索。我们希望我们的工作能够揭示LLMs在加强和危及网络安全方面的潜力。

关键词
大型语言模型(LLM)LLM安全性LLM隐私ChatGPTLLM攻击LLM漏洞

1. 引言

大型语言模型是一种具有大量参数的语言模型,它通过预训练任务(例如,掩码语言建模和自回归预测)来理解并处理人类语言,通过从大量文本数据中建模上下文化的文本语义和概率。一个有能力的LLM应该具备四个关键特性[1]:(i)对自然语言上下文的深刻理解;(ii)生成类似人类的文本的能力;(iii)上下文意识,特别是在知识密集型领域;(iv)强大的指令遵循能力,这对解决问题和决策很有用。

2023年开发并发布的一些LLM获得了显著的流行度。值得注意的例子包括OpenAI的ChatGPT[2]、Meta AI的LLaMA[3]和Databricks的Dolly 2.0[4]。例如,ChatGPT单独就拥有超过1.8亿的用户基础[5]。LLM现在在各个领域提供了广泛的多功能应用。具体来说,它们不仅为直接与语言处理相关的领域提供技术支持(例如,搜索引擎[6]、[7]、客户支持[8]、翻译[9]、[10]),而且在更一般的场景中也找到了用途,如代码生成[11]、医疗保健[12]、金融[13]和教育[14]。这展示了它们适应性和潜力,以简化不同行业和上下文中与语言相关的任务。

LLM在安全社区中越来越受欢迎。截至2023年2月,一项研究报告称GPT-3在一个代码库中发现了213个安全漏洞(只有4个结果为误报)[15]。相比之下,市场上领先的商业工具只检测到了99个漏洞。最近,在IEEE S&P 2023会议上,Hammond Pearce等人[16]利用各种商业可用的LLMs进行了全面调查,评估了它们在合成、手工制作和现实世界安全漏洞场景中的表现。结果是有希望的,因为LLMs成功解决了所有合成和手工制作的场景。在NDSS 2024会议上,一个名为Fuzz4All[17]的工具展示了LLMs在输入生成和变异中的使用,辅以创新的自动提示技术和模糊测试循环。

这些显著的初步尝试促使我们深入研究三个关键的安全相关问题:

• RQ1. LLM如何对不同领域的安全性和隐私产生积极影响,它们为安全社区提供了哪些优势?

• RQ2. 在网络安全领域,LLM的使用带来了哪些潜在风险和威胁?

• RQ3. LLM内部的漏洞和弱点是什么,如何防御这些威胁?

发现。
为了全面解决这些问题,我们进行了细致的文献综述,并汇编了一份包含281篇关于LLM与安全性和隐私交叉点的论文集。我们将这些论文分为三个不同的组:那些强调安全有益应用的(即好的)、那些探讨可能对安全产生不利影响的应用的(即坏的),以及那些关注LLM内部安全漏洞(以及潜在防御机制)的讨论的(即丑陋的)。具体来说:

• 好的(第4节):LLM对安全社区有主要的积极影响,这由专门用于增强安全的论文数量最多所表明。具体来说,LLM在代码安全和数据安全及隐私方面都做出了贡献。在代码安全方面,LLM已被用于代码的整个生命周期(例如,安全编码、测试用例生成、漏洞代码检测、恶意代码检测和代码修复)。在数据安全和隐私方面,LLM已被应用于确保数据完整性、数据保密性、数据可靠性和数据可追溯性。与此同时,与最先进的方法相比,大多数研究人员发现基于LLM的方法超越了传统方法。

• 坏的(第5节):LLM也有针对安全和隐私的攻击性应用。我们将攻击分为五组:硬件级攻击(例如,侧信道攻击)、操作系统级攻击(例如,从操作系统分析信息)、软件级攻击(例如,创建恶意软件)、网络级攻击(例如,网络钓鱼)和用户级攻击(例如,错误信息、社交工程、科学不当行为)。用户级攻击,有32篇论文,是最普遍的,这归因于LLM的类似人类推理能力。这些攻击威胁到安全(例如,恶意软件攻击)和隐私(例如,社交工程)。现在,LLM缺乏对操作系统和硬件级功能的直接访问。如果LLM获得这种访问,它们潜在的威胁可能会升级。

• 丑陋的(第6节):我们探讨了LLM中的漏洞和防御措施,将漏洞分为两组:AI模型固有漏洞(例如,数据投毒、后门攻击、训练数据提取)和非AI模型固有漏洞(例如,远程代码执行、提示注入、侧信道)。这些攻击构成了双重威胁,包括安全问题(例如,远程代码执行攻击)和隐私问题(例如,数据提取)。LLM的防御分为架构中放置的策略,以及在训练和推理阶段应用的策略。训练阶段的防御包括语料库清洗和优化方法,而推理阶段的防御包括指令预处理、恶意检测和生成后处理。这些防御共同旨在增强LLM的安全性、鲁棒性和道德一致性。我们发现,模型提取、参数提取和类似攻击的研究受到了有限的关注,主要保持在理论上,极少进行实际探索。LLM参数的庞大规模使传统方法效果降低,而强大的LLM的保密性进一步保护它们免受常规攻击。严格的LLM输出审查甚至对黑盒ML攻击构成挑战。与此同时,对模型架构对LLM安全性影响的研究很少,部分原因是计算成本高昂。安全指令调整,这是一个最新发展,需要进一步调查。

贡献
我们的工作具有双重贡献。首先,我们是首次总结LLM在安全性和隐私方面的角色。我们深入探讨了LLM对安全性的积极影响、它们的潜在风险和威胁、LLM中的漏洞以及相应的防御机制。其他调查可能只关注一个或两个特定方面,如有益应用、攻击性应用、漏洞或防御。据我们所知,我们的调查是首次涵盖与安全性和隐私相关的所有三个关键方面。其次,我们有了一些有趣的发现。例如,我们的研究表明,LLM对安全性和隐私的积极贡献大于消极贡献。此外,我们观察到,大多数研究人员一致认为,当LLM用于保护代码或数据时,它们超越了最先进的方法。同时,很明显,用户级攻击是最普遍的,这在很大程度上归因于LLM展示的类似人类的推理能力。

路线图
本文的其余部分组织如下。我们从第2节开始简要介绍LLM。
第3节
介绍了我们工作的概述。在
第4节
,我们探讨了使用LLM的有益影响。
第5节
讨论了对安全性和隐私的负面影响。在
第6节
,我们讨论了与LLM相关的普遍威胁、漏洞以及减轻这些风险的对策。
第7节
讨论了LLM在其他安全相关主题中的讨论和可能的方向。我们在
第9节
结束本文。

2. 背景

2.1 大型语言模型(LLMs)

大型语言模型(LLMs)[18]代表了语言模型的演进。最初,语言模型是统计性质的,为计算语言学奠定了基础。变换器(transformers)的出现显著增加了它们的规模。这种扩展,加上使用广泛的训练语料库和先进的预训练技术,在诸如科学人工智能、逻辑推理和具身人工智能等领域至关重要。这些模型经过大量数据集的广泛训练,以理解和生成与人类语言极为相似的文本。通常,LLMs拥有数千亿甚至更多的参数,通过处理大量文本数据进行磨练。它们在自然语言处理(NLP)[19]领域取得了重大进展,并在多个领域(例如风险评估[20]、编程[21]、漏洞检测[11]、医学文本分析[12]和搜索引擎优化[7])中得到应用。

根据杨的研究[1],LLM至少应该具备四个关键特性。首先,LLM应该展示对自然语言文本的深刻理解和解释能力,使其能够提取信息并执行各种与语言相关的任务(例如翻译)。其次,它应该具备生成类似人类文本的能力(例如完成句子、撰写段落甚至撰写文章)当被提示时。第三,LLMs应该表现出上下文意识,考虑诸如领域专业知识等因素,这种品质被称为“知识密集型”。第四,这些模型应该在解决问题和决策制定方面表现出色,利用文本段落中的信息使它们对信息检索和问答系统等任务非常有价值。

2.2 流行LLM的比较

如表1[22][23]所示,语言模型的提供者多种多样,包括行业领导者如OpenAI、Google、Meta AI,以及新兴参与者如Anthropic和Cohere。发布日期从2018年到2023年,展示了近年来语言模型的快速发展和演变。像“gpt-4”这样的新模型在2023年出现,突出了该领域的持续创新。虽然大多数模型不是开源的,但值得注意的是,像BERT、T5、PaLM、LLaMA和CTRL这样的模型是开源的,这可以促进社区驱动的开发和应用。较大的模型往往有更多的参数,可能表明能力增加,但也意味着更大的计算需求。例如,“PaLM”以巨大的5400亿参数脱颖而出。还可以观察到,LLMs往往有更多的参数,可能表明能力增加,但也意味着更大的计算需求。“可调性”列表明这些模型是否可以针对特定任务进行微调。换句话说,可以采用一个大型预训练语言模型,并调整其参数和训练在更小的、特定于领域的数据集上,使其在特定任务上表现更好。例如,通过可调性,可以在电影评论数据集上微调BERT,使其在情感分析上非常有效。

表1. 流行LLM的比较[24][25][26][27][28][29][30]。
在这里插入图片描述

3. 概述

3.1. 范围

我们的论文致力于进行彻底的文献综述,目标是整理和审查有关LLM在安全性和隐私方面的现有研究和研究。这项工作旨在确立该领域的当前技术状态,并指出我们集体知识中的空白。虽然LLMs确实拥有超越安全考虑的多方面应用(例如,社会和金融影响),我们的主要关注点仍然坚定地集中在安全和隐私问题上。此外,值得注意的是,GPT模型在这一领域内已获得显著的突出地位。因此,在深入研究具体内容和示例时,我们旨在使用GPT模型作为说明性的基准。

3.2. 研究问题

LLMs在不同领域都带来了深远的影响。然而,必须认识到,像任何强大技术一样,LLMs承担着重大的责任。我们的论文深入探讨了LLMs在安全和隐私背景下的多面角色。我们打算审查它们对这些领域的积极贡献,探索它们可能引发潜在威胁,并揭示可能破坏其完整性的漏洞。为了实现这一点,我们的研究将围绕三个关键的研究问题进行彻底的文献综述:

• 好的(第4节):LLM如何积极地促进各个领域的安全和隐私,它们为安全社区带来了哪些潜在的好处?

• 坏的(第5节):在网络安全的背景下,使用LLMs可能带来的潜在风险和威胁是什么?具体来说,LLMs可以被用于恶意目的,以及使用LLMs可以促进或放大哪些类型的网络攻击?

• 丑陋的(第6节):LLMs内部存在哪些漏洞和弱点,这些漏洞对安全和隐私构成威胁?

受这些问题的驱动,我们在Google Scholar上进行了搜索,并整理了涉及LLMs的安全性和隐私相关的论文。如图1所示,我们收集了总共83篇“好的”论文,这些论文突出了LLMs对安全和隐私的积极贡献。此外,我们确定了54篇“坏的”论文,在这些论文中,攻击者利用LLMs针对用户,以及144篇“丑陋的”论文,在这些论文中,作者发现了LLMs内部的漏洞。大多数论文发表于2023年,只有82篇在2007年至2022年之间发布。值得注意的是,每个月发表的论文数量呈现出一致的上升趋势,10月份达到顶峰,发表了最多的论文(总共38篇,占收集到的所有论文的15.97%)。可以想象,未来将有更多的与安全相关的LLM论文发表。


图1. 我们收集的论文概览。

4. 对安全和隐私的积极影响

在这一部分,我们探讨了使用LLMs的有益影响。在代码或数据隐私的背景下,我们选择使用“隐私”一词来描述LLMs被用来确保代码或数据保密性的场景。然而,鉴于我们没有找到专门讨论代码隐私的论文,我们的讨论集中在代码安全(第4.1节)以及数据安全和隐私(第4.2节)。

在这里插入图片描述

表2. 用于代码安全和隐私的LLMs。

4.1. 用于代码安全的LLMs

如表2所示,LLMs可以访问大量的代码片段和示例,涵盖各种编程语言和领域。它们利用先进的语言理解和上下文分析能力,彻底检查代码和与代码相关的文本。更具体地说,LLMs可以在整个代码安全生命周期中发挥关键作用,包括编码(C)、测试用例生成(TCG)、执行和监控(RE)。

安全编码(C)
我们首先讨论LLMs在安全编码编程[59](或生成[60]、[61]、[62]、[63])背景下的使用。Sandoval等人[31]进行了一项用户研究(58名用户),以评估LLMs,特别是OpenAI Codex作为开发人员代码助手的安全影响。他们评估了在LLMs辅助下学生程序员编写的代码,并发现由LLMs辅助的参与者没有引入新的安全风险:AI辅助组产生关键安全漏洞的速率不高于对照组(未辅助)的10%。He等人[32]、[64]专注于通过LLMs增强生成代码的安全性。他们提出了一种称为SVEN的新颖方法,利用连续提示来控制LLMs生成安全代码。采用这种方法,成功率从59.1%提高到92.3%,当使用CodeGen LM时。Mohammed等人引入了SALLM[33],一个由新的安全重点数据集、评估环境和新颖指标组成的框架,用于系统评估LLMs生成安全代码的能力。Madhav等人[34]评估了在ChatGPT平台上进行代码生成过程的安全方面,特别是在硬件领域。他们探讨了设计师可以采用的策略,以使ChatGPT提供安全硬件代码生成。

测试用例生成(TCG)
一些论文[65]、[66]、[67]、[68]、[69]、[70]、[71]讨论了LLMs在生成测试用例方面的应用,我们特别关注那些解决安全影响的论文。Zhang等人[35]展示了使用ChatGPT-4.0生成安全测试以评估软件应用程序中脆弱库依赖性的影响。他们发现LLMs能够成功生成测试,展示了各种供应链攻击,超越了现有的安全测试生成器。这种方法在55个应用程序中成功实现了24次攻击。类似地,Libro[36],一个框架,使用LLMs自动生成测试用例以重现软件安全漏洞。

在安全领域,模糊测试[40]、[72]、[73]、[74]、[75]作为一种广泛使用的技术,用于生成测试用例。Deng等人介绍了TitanFuzz[37],一种利用LLMs为深度学习(DL)库生成输入程序的方法。TitanFuzz展示了令人印象深刻的代码覆盖率(30.38%/50.84%),并在流行的DL库中检测到以前未知的错误(65个中的41个)。最近,Deng等人[38]、[76]改进了基于LLM的模糊测试(命名为FuzzGPT),旨在为DL库模糊测试生成不寻常的程序。而TitanFuzz利用LLMs生成普通代码的能力,FuzzGPT通过用历史错误触发程序引导LLMs来解决边缘情况测试的需求。Fuzz4All[17]利用LLMs作为输入生成器和变异引擎,为各种语言(例如C、C++)创建多样化和现实的输入,将先前最先进的覆盖率平均提高了36.8%。WhiteFox[39],一种新颖的白盒编译器模糊测试器,利用LLMs测试编译器优化,超越了现有的模糊测试器(它为复杂的优化生成了高质量的测试,超过了最先进的模糊测试器高达80个优化)。Zhang等人[40]探讨了使用LLMs生成库API模糊测试的模糊驱动器。结果显示,基于LLM的生成是实际的,64%的问题完全自动解决,高达91%的问题通过手动验证解决。CHATAFL[41]是一个LLM引导的协议模糊测试器,它根据LLM交互为消息类型构建语法,并变异消息或预测下一条消息,与最先进的模糊测试器(例如AFLNET[77]、NSFUZZ[78])相比,实现了更好的状态和代码覆盖率。

利用LLMs进行漏洞检测的努力扩展到专业领域(例如,区块链[50]、[51]、内核[79]、移动[80])。例如,Chen等人[50]和Hu等人[51]专注于在区块链智能合约中识别漏洞的应用LLMs。Sakaoglu的研究介绍了KARTAL[52],这是一种开创性的方法,利用LLMs进行Web应用程序漏洞检测。这种方法实现了高达87.19%的准确率,并且能够每秒进行539次预测。此外,Chen等人[53]通过VulLibGen,一种利用LLMs识别漏洞库的生成方法,做出了值得注意的贡献。Ahmad等人[54]将重点转移到硬件安全上。他们研究了使用LLMs,特别是OpenAI的Codex,在自动识别和修复硬件设计中的安全相关错误方面的使用。PentestGPT[81],一个自动化渗透测试工具,使用LLMs固有的领域知识来解决渗透测试的各个子任务,显著提高了任务完成率。

恶意代码检测(RE)
使用LLM检测恶意软件是一个有前途的应用。这种方法利用了LLM的自然语言处理能力和上下文理解来识别恶意软件。Henrik Plate[42]通过GPT-3.5进行的实验发现,基于LLM的恶意软件检测可以补充人工审查,但不能取代它们。在进行的1800次二元分类中,既有误报也有漏报。简单的技巧也能欺骗LLM的评估。最近,在这个方向上也进行了一些尝试。例如,Apiiro[43]是一种使用LLMs的恶意代码分析工具。Apiiro的策略涉及创建LLM代码模式(LCPs)以向量格式表示代码,使其更容易识别相似性并有效聚类包。其LCP检测器结合了LLMs、专有代码分析、概率抽样、LCP索引和降维来识别潜在的恶意代码。

脆弱/错误代码修复(RE)。
一些论文[16]、[58]、[99]专注于评估LLMs在代码上训练的性能,任务是程序修复。Jin等人[55]提出了InferFix,这是一个基于变换器的程序修复框架,与尖端静态分析器和基于变换器的模型结合使用,以解决并修复关键的安全和性能问题,准确率在65%到75%之间。Pearce等人[16]观察到,即使没有明确训练在漏洞修复任务上,LLMs也能在一系列上下文中修复不安全的代码。

表3. 用于数据安全和隐私的LLMs。
在这里插入图片描述

ChatGPT以其在代码缺陷检测和纠正方面的能力而闻名。Fu等人[56]评估了ChatGPT在与漏洞相关的任务中的表现,如预测和分类漏洞、严重性估计以及分析超过19万个C/C++函数。他们发现ChatGPT的表现落后于专门从事漏洞检测的其他LLMs。然而,Sobania等人[57]发现ChatGPT的错误修复性能与标准程序修复方法具有竞争力,这体现在其能够修复40个错误中的31个。Xia等人[100]介绍了ChatRepair,利用预训练语言模型(PLMs)生成补丁,不依赖于错误修复数据集,旨在通过成功和失败的测试混合来提高性能,以不依赖于错误修复数据集的方式生成补丁,目的是提高ChatGPT的代码修复能力。结果,他们以每个0.42美元的成本修复了337个错误中的162个。

在这里插入图片描述

4.2. 用于数据安全和隐私的LLMs

如表3所示,LLMs在数据安全领域做出了宝贵的贡献,提供了多方面的方法来保护敏感信息。我们根据LLMs增强的具体数据保护方面,将研究论文分为不同的类别。这些方面包括关键方面,如数据完整性(I),确保数据在其生命周期中保持不变和未被破坏;数据可靠性(R),确保数据的准确性;数据保密性(C),专注于防止未经授权的访问和披露敏感信息;以及数据可追溯性(T),涉及跟踪和监控数据访问和使用。

数据完整性(I)
数据完整性确保数据在其生命周期中保持不变和未被破坏。目前,很少有工作讨论如何使用LLMs来保护数据完整性。例如,勒索软件通常加密受害者的数据,使数据在没有攻击者持有的解密密钥的情况下无法访问,这破坏了数据完整性。Wang Fang的研究[82]检查了使用LLMs进行勒索软件网络安全策略的情况,主要是理论上提出实时分析、自动策略生成、预测分析和知识转移。然而,这些策略缺乏实证验证。同样,Liu等人[83]探索了LLMs在创建旨在减轻带有数据泄露的勒索软件攻击的网络安全策略方面的潜力。他们将GPT生成的治理、风险和合规(GRC)政策与来自成熟安全供应商和政府网络安全机构的政策进行了比较。他们建议公司应该将GPT纳入他们的GRC政策发展中。

异常检测是一个关键的防御机制,用于识别不寻常的行为。虽然它不直接保护数据完整性,但它识别可能破坏数据完整性(以及数据保密性和数据可靠性)的异常或可疑行为。Amine等人[84]引入了一个基于LLM的监控框架,用于检测基于视觉的政策中的语义异常,并将其应用于自动驾驶的有限状态机政策和学习的对象操纵政策。实验结果表明,它可以有效地识别语义异常,与人类推理一致。HuntGPT[85]是一个基于LLM的网络异常检测的入侵检测系统。结果表明,它在提高用户理解和交互方面是有效的。Chris等人[86]和LogGPT[88]并行探索了ChatGPT在并行文件系统中基于日志的异常检测的潜力。结果表明,它解决了传统手动标记和可解释性的问题。AnomalyGPT[87]使用大型视觉-语言模型来检测工业异常。它消除了手动阈值设置,并支持多轮对话。

数据保密性(C)
数据保密性指的是保护敏感信息免受未经授权的访问或披露的做法,这是一个在LLM隐私讨论中广泛讨论的话题[89]、[101]、[102]、[103]。然而,这些研究大多集中在通过最先进的隐私增强技术(例如,零知识证明[104]、差分隐私(例如[102]、[105]、[106])和联邦学习[107]、[108]、[109])来增强LLMs。只有少数尝试利用LLMs来增强用户隐私。例如,Arpita等人[89]使用LLMs通过在文本数据中用通用标记替换识别信息来保护隐私。与其存储敏感用户信息,如姓名、地址或信用卡号,不如让LLMs为掩蔽的标记提出替代品。这种混淆技术有助于保护用户数据不被暴露给对手。通过使用LLMs为掩蔽的标记生成替代品,模型可以在不破坏原始信息的隐私和安全的情况下在混淆的数据上进行训练。其他研究[103]、[110]也探索了类似的想法。Hyeokdong等人[93]探索了使用ChatGPT实现密码学,最终保护数据保密性。尽管缺乏广泛的编码技能或编程知识,作者还是能够通过ChatGPT成功实现密码算法。这突出了个人利用ChatGPT进行密码学任务的潜力。

数据可靠性(R)
在我们的情况下,数据可靠性指的是数据的准确性。它是衡量数据能够依赖于准确无误,没有错误或偏见的程度。Takashi等人[90]提议使用ChatGPT检测包含网络钓鱼内容的网站。使用GPT-4的实验结果显示出有希望的性能,具有高精确度和召回率。Fredrik等人[91]评估了四种大型语言模型(GPT、Claude、PaLM和LLaMA)检测网络钓鱼电子邮件中的恶意意图的能力,并发现它们通常是有效的,甚至超过了人类的检测,尽管偶尔准确度略低。IPSDM[92]是从BERT家族微调出的模型,用于有效识别网络钓鱼和垃圾邮件。IPSDM在分类电子邮件方面表现出色,无论是在不平衡还是平衡的数据集中。

数据可追溯性(T)
数据可追溯性是跟踪和记录数据在单个系统内或跨多个系统中的来源、移动和历史的能力。这个概念在事件管理和法医调查等领域特别重要,这些领域理解事件的旅程和转变对于解决问题和进行彻底分析至关重要。LLMs在法医调查中获得了关注,为分析数字证据提供了新方法。Scanlon等人[94]探索了ChatGPT如何协助分析操作系统工件,如日志、文件、云交互、可执行二进制文件,并检查内存转储以检测可疑活动或攻击模式。此外,Sladić等人[95]提出,像ChatGPT这样的生成模型可以用来创建现实的蜜罐,以欺骗人类攻击者。

水印涉及在模型的输出中嵌入一个独特、通常不易察觉或难以识别的信号。Wang等人[96]讨论了LLMs训练数据知识产权的问题,并提出了WASA框架来学习不同数据提供者文本之间的映射。Zhang等人[97]开发了REMARK-LLM,专注于监控其内容的利用并验证其水印检索。这有助于防止恶意使用,如垃圾邮件和剽窃。此外,识别LLMs生成的代码对于解决代码许可、剽窃和恶意软件创建方面的法律和道德问题至关重要。同样,Li等人[111]提出了第一种水印技术,以保护基于大型语言模型的代码生成API免受远程模仿攻击。Lee等人[98]开发了SWEET,这是一个在编程语言中的标记上实施水印的工具。

在这里插入图片描述

5. 对安全和隐私的负面影响

如图2所示,我们根据各自在系统基础设施中的位置将攻击分为五组。这些类别包括硬件级攻击、操作系统级攻击、软件级攻击、网络级攻击和用户级攻击。此外,我们还量化了每组相关的发表论文数量,如图3所示。

硬件级攻击。
硬件攻击通常涉及对设备的物理访问。然而,LLMs不能直接访问物理设备。相反,它们只能访问与硬件相关的信息。侧信道攻击[112]、[113]、[114]是LLMs可以增强的一种攻击。侧信道攻击通常包括分析来自物理系统或实现(如加密设备或软件)的非故意信息泄露,目的是推断秘密信息(例如密钥)。

在这里插入图片描述

图2. 网络攻击的分类。彩色框代表已被证明可以使用LLMs执行的攻击,而灰色框表示无法使用LLMs执行的攻击。
在这里插入图片描述

图3. 现有攻击的普遍性。

Yaman[115]探讨了应用LLM技术来开发侧信道分析方法。该研究评估了基于LLM的方法在分析两种硬件相关情景下的侧信道信息的有效性:AES侧信道分析和深度学习加速器侧信道分析。进行实验以确定这些方法在两种情况下的成功率。

操作系统级攻击
LLMs在高层次的抽象上运行,主要涉及基于文本的输入和输出。它们缺乏执行操作系统级攻击所必需的低级别系统访问[116]、[117]、[118]。尽管如此,它们可以被用于分析从操作系统收集的信息,从而可能有助于执行此类攻击。Andreas等人[119]建立了一个反馈循环,通过SSH将LLM连接到一个脆弱的虚拟机,允许LLM分析机器的状态,识别漏洞,并提出具体的攻击策略,然后这些策略在虚拟机内自动执行。最近,他们[120]介绍了一个使用本地虚拟机和LLM引导的权限提升工具来评估各种LLMs和提示策略的自动化Linux权限提升基准测试。

软件级攻击
类似于他们如何使用LLM针对硬件和操作系统,也有一些实例使用LLM攻击软件(例如[35]、[121]、[122]、[123])。然而,最常见的软件级用例涉及恶意开发人员利用LLMs创建恶意软件。Mika等人[124]提出了一个概念验证,其中ChatGPT被用来分发恶意软件同时避免检测。Yin等人[125]调查了通过创建一些恶意软件程序(例如勒索软件、蠕虫、键盘记录器、暴力破解恶意软件、无文件恶意软件)滥用LLM的潜力。Antonio Monje等人[126]展示了如何欺骗ChatGPT快速生成勒索软件。Marcus Botacin[127]探索了不同的编码策略(例如生成整个恶意软件、创建恶意软件功能)并调查了LLM重写恶意软件代码的能力。结果显示,LLM在构建使用构建块描述的恶意软件方面表现出色。同时,LLM可以生成同一语义内容(恶意软件变种)的多个版本,其被Virustotal AV的检测率不同(从4%到55%)。

网络级攻击
LLMs也可用于发起网络攻击。利用LLM的一个普遍的网络级攻击示例是网络钓鱼攻击[128]、[129]。Fredrik等人[91]比较了使用GPT-4生成的AI钓鱼电子邮件与使用V-Triad手动设计的钓鱼电子邮件,以及暴露于通用钓鱼电子邮件的对照组。结果显示,无论是由AI生成还是手动设计的个性化钓鱼电子邮件,与通用钓鱼电子邮件相比,点击率更高。Tyson等人[130]研究了如何修改ChatGPT的输入可以影响生成的电子邮件的内容,使其更具说服力。Julian Hazell[131]展示了使用ChatGPT为600多名英国国会议员生成真实且成本效益高的钓鱼信息,从而扩大了鱼叉式钓鱼活动的规模。在另一项研究中,Wang等人[132]讨论了在LLM时代传统防御可能失败的情况。涉及扭曲字母和数字的CAPTCHA挑战难以检测依赖文本和语音的聊天机器人。然而,LLM可能会破坏这些挑战,因为它们可以生成高质量的类人文本并有效模仿人类行为。有一项研究利用LLM部署指纹攻击。Armin等人[133]采用基于密度的聚类对HTTP横幅进行聚类,并为注释扫描数据创建基于文本的指纹。当这些指纹与现有数据库进行比较时,就可以识别新的物联网设备和服务器产品。

用户级攻击
最近的讨论主要集中在用户级攻击上,因为LLM展示了其能够创建非常令人信服但最终具有欺骗性的内容的能力,以及在看似无关的信息片段之间建立联系的能力。这为恶意行为者提供了从事一系列恶意活动的机会。以下是一些例子:

  • 虚假信息。在没有监督的情况下过度依赖由LLM生成的内容,引发了关于在线内容安全性的严重担忧[134]。许多研究集中在检测由LLM生成的虚假信息。一些研究[135]、[136]、[137]揭示了由LLM生成的内容更难检测,可能使用更具有欺骗性的风格,可能造成更大的伤害。Canyu Chen等人[135]为LLM生成的虚假信息提出了一个分类并验证了方法。还开发了对策和检测方法[136]、[138]、[139]、[140]、[141]、[142]、[143]、[144]、[145]来解决这些新出现的问题。

  • 社交工程。LLMs不仅有可能从训练数据中生成内容,而且它们还为攻击者提供了社交工程的新视角。Stabb等人[146]的工作突出了训练有素的LLMs从文本中推断个人属性(如位置、收入和性别)的能力。他们还揭示了这些模型如何从看似无害的查询中提取个人信息。Tong等人[147]调查了由LLMs生成的内容可能包含用户信息。此外,Polra Victor Falade[148]表示,由LLM驱动的社交工程师的利用涉及心理操纵、针对性网络钓鱼和真实性危机等策略。

  • 科学不当行为。不负责任地使用LLMs可能导致与科学不当行为相关的问题,源于它们生成原创、连贯文本的能力。学术界[149]、[150]、[151]、[152]、[153]、[154]、[155]、[156]、[157]、[158]、[159],包括来自不同国家的不同学科,对在LLM时代检测科学不当行为的难度日益增加表示担忧。由LLMs产生连贯和原创内容的能力,包括来自不可靠来源的完整论文[160]、[161]、[162],引起了担忧。研究人员也在积极努力检测此类不当行为。例如,Kavita Kumari等人[163]、[164]提出了DEMASQ,一个精确的ChatGPT生成内容检测器。DEMASQ考虑了文本组成的偏见和规避技术,在识别ChatGPT生成内容方面在不同领域实现了高准确率。

  • 欺诈。网络犯罪分子设计了一种称为FraudGPT[148]、[165]的新工具,它的操作类似于ChatGPT,但促进了网络攻击。它缺乏ChatGPT的安全控制,并在暗网和Telegram上以每月200美元或每年1700美元的价格出售。FraudGPT可以创建与银行相关的欺诈电子邮件,建议在内容中放置恶意链接。它还可以列出经常成为目标的站点或服务,帮助黑客策划未来的攻击。WormGPT[166]是一种网络犯罪工具,提供无限字符支持和聊天记忆保留等功能。该工具在保密数据集上接受训练,重点关注与恶意软件相关和欺诈相关的数据。它可以指导网络犯罪分子执行商业电子邮件泄露(BEC)攻击。

在这里插入图片描述

6. LLMs中的漏洞和防御

在接下来的部分中,我们将深入探讨与LLMs相关的普遍威胁和漏洞(第6.1节)。我们将检查在LLMs背景下出现的具体风险和挑战。除了讨论这些挑战,我们还将深入研究研究人员和实践者为减轻这些风险而开发的对策和策略(第6.2节)。
图4展示了攻击和防御之间的关系。

6.1. LLMs中的漏洞和威胁

在这一部分,我们旨在深入研究可能针对LLMs的潜在漏洞和攻击。我们的检查试图将这些威胁归类为两个不同的组:AI模型固有漏洞和非AI模型固有漏洞。

6.1.1. AI固有漏洞和威胁

这些是源于LLMs本身性质和架构的漏洞和威胁,考虑到LLMs本质上是AI模型。例如,攻击者可能操纵输入数据以从LLM生成不正确或不期望的输出。

(A1) 对抗性攻击
机器学习中的对抗性攻击指的是一组技术和策略,用于故意操纵或欺骗机器学习模型。这些攻击通常带有恶意意图,旨在利用模型行为中的漏洞。我们只关注讨论最广泛的攻击,即数据投毒和后门攻击。
在这里插入图片描述

图4. 威胁和防御的分类。线条代表可以防御特定攻击或攻击组的防御技术。

  • 数据投毒。数据投毒代表攻击者通过向训练数据集注入恶意数据来影响训练过程。这可能引入漏洞或偏见,破坏结果模型的安全性、有效性或道德行为[134]。各种研究[167]、[168]、[169]、[170]、[171]、[172]表明,通过使用不信任的权重或内容等方法,包括将投毒示例插入其数据集中,预训练模型容易受到妥协。由于其作为预训练模型的固有性质,LLMs容易受到数据投毒攻击[173]、[174]、[175]。例如,Alexander等人[168]表明,即使只有100个投毒示例,LLM也可以在各种任务中持续产生负面结果或有缺陷的输出。更大的语言模型更容易受到投毒的影响,现有的防御措施如数据过滤或模型容量减少只提供适度的保护,同时损害测试准确性。

  • 后门攻击。后门攻击涉及恶意操纵训练数据和模型处理,创建一个漏洞,攻击者可以将隐藏的后门嵌入模型中[176]。后门攻击和数据投毒攻击都涉及操纵机器学习模型,其中可能包括输入操纵。然而,关键的区别在于后门攻击专门关注在模型中引入隐藏的触发器,以在遇到触发器时操纵特定行为或响应。LLMs容易受到后门攻击[177]、[178]、[179]。例如,Yao等人[180]结合了触发机制和提示调整,提出了双向后门。

(A2) 推理攻击
在机器学习的背景下,推理攻击指的是一类攻击,其中对手试图通过向模型提出特定查询或观察来获得有关机器学习模型或其训练数据的敏感信息或见解。这些攻击经常利用响应中的非故意信息泄露。

  • 属性推理攻击。属性推理攻击[181]、[182]、[183]、[184]、[185]、[186]是一种威胁类型,攻击者试图通过分析机器学习模型的行为或响应来推断个人或实体的敏感或个人信息。它也适用于LLMs。Robin等人[146]首次全面检查了预训练LLMs从文本中推断个人信息的能力。使用真实的Reddit个人资料数据集,研究表明当前的LLMs可以准确推断出各种个人信息(例如位置、收入、性别)。

  • 成员推理。成员推理攻击是数据安全和隐私领域的一种特定类型的推理攻击,确定数据记录是否是模型训练数据集的一部分,给定对模型和特定数据记录的白盒/黑盒访问[187]、[188]、[189]、[190]、[191]、[192]、[193]。一些研究已经探讨了成员推理的概念,每个研究采用独特的视角和方法。这些研究通过分析标签[194]、确定阈值[195]、[196]、[197]、开发通用公式[198]等方法,探索了各种成员推理攻击。Miresghallah等人[199]发现,与微调较小的适配器相比,微调模型的头部表现出更大的攻击易感性。

(A3) 提取攻击
提取攻击通常指对手试图从机器学习模型或其相关数据中提取敏感信息或见解的尝试。提取攻击和推理攻击有相似之处,但在特定的焦点和目标上有所不同。提取攻击旨在直接获取特定资源(例如模型梯度、训练数据)或机密信息。推理攻击寻求了解有关模型或数据特征的知识或见解,通常是通过观察模型的响应或行为。存在各种类型的数据提取攻击,包括模型盗窃攻击[200]、[201]、梯度泄露[202]和训练数据提取攻击[203]。截至当前编写,已观察到训练数据提取攻击可能对LLMs有效。训练数据提取[203]指的是攻击者试图通过策略性地查询机器学习模型来检索模型训练数据中的特定个体示例的方法。许多研究[204]、[205]、[206]表明,从LLMs提取训练数据是可能的,其中可能包括个人和私人信息[207]、[208]。值得注意的是,Truong等人[209]的工作脱颖而出,它能够在不访问原始模型数据的情况下复制模型。

(A4) 偏见和不公平利用
LLMs中的偏见和不公平与这些模型表现出偏见结果或歧视行为的现象有关。虽然偏见和公平性问题并非LLMs独有,但由于道德和社会关切,它们受到了更多关注。也就是说,LLMs的社会影响促使人们讨论开发和部署这些模型的组织和研究者的道德责任。这导致了对偏见和公平性的增加审查和研究。来自各个领域的担忧包括性别和少数群体[210]、[211]、[212]、[213]、错误信息的识别、政治方面。多项研究[214]、[215]揭示了在查询LLMs时使用的语言存在偏见。此外,Urman等人[216]发现,偏见可能源于遵守政府审查指南。职业写作中的偏见[145]、[217]、[218]也成为社区内的一个担忧,因为它可能严重损害信誉。LLMs的偏见还可能导致基于文本应用之外的领域的负面副作用。Dai等人[219]指出,LLM生成的内容可能在神经检索系统中引入偏见,而Huang等人[220]发现偏见也可能存在于LLM生成的代码中。

(A5) 指令调整攻击
指令调整,也称为基于指令的微调,是一种机器学习技术,通过在微调过程中提供明确的指令或示例来训练和调整语言模型以适应特定任务。在LLMs中,指令调整攻击指的是针对经过特定指令或示例微调的LLMs的一类攻击或操纵。这些攻击旨在利用针对特定任务经过微调的LLMs中的漏洞或限制。

  • 越狱。LLMs中的越狱涉及绕过安全功能,以响应否则限制或不安全的问题,解锁通常受到安全协议限制的功能。许多研究已经展示了成功越狱LLMs的各种方法[221]、[222]、[223]。Wei等人[224]强调,通过上下文演示可以影响或操纵LLMs的对齐能力。除此之外,一些研究[225]、[226]也展示了使用各种方法进行类似操纵,突出了可以越狱LLMs的方法的多样性。最近,MASTERKEY[227]采用了一种基于时间的方法来剖析防御,并展示了概念验证攻击。它自动生成越狱提示,成功率为21.58%。此外,越狱LLMs采用了多种方法,如进行模糊测试[228]、实施优化搜索策略[229],甚至专门训练LLMs越狱其他LLMs[229]、[230]。与此同时,Cao等人[231]开发了RA-LLM,这是一种在不需要重新训练或访问模型参数的情况下降低对抗性和越狱提示成功率的方法。

  • 提示注入。提示注入攻击描述了一种操纵LLMs行为以引发意外和潜在有害响应的方法。这种技术涉及以一种绕过模型保护或触发不良输出的方式制作输入提示。大量的研究[232]、[233]、[234]、[235]、[236]、[237]已经自动化了识别提示注入中语义保持有效载荷的过程,各种关注点不同。利用微调的能力,可以通过提示攻击引入后门[183]、[238]、[239]、[240]。此外,Gresake等人[241]对LLMs调用外部资源可能产生的新漏洞表示担忧。其他研究也展示了利用提示注入攻击的能力,如揭示指导提示[242]、虚拟化提示注入[243]和集成应用[244]。He等人[245]、[246]探讨了向利用在大量数据集上训练的LLMs,以减轻这类攻击的转变。

  • 拒绝服务。拒绝服务(DoS)攻击是一种网络攻击,旨在耗尽计算资源,导致延迟或使

在这里插入图片描述

6.1.2. 非AI固有漏洞和威胁

我们还需要考虑非AI固有攻击,这些攻击包括外部威胁和新出现的漏洞(在传统AI模型中尚未观察或调查到),LLMs可能会遇到。这些攻击可能与AI模型的内部机制没有紧密联系,但它们可能带来重大风险。非AI固有攻击的示例包括系统级漏洞(例如远程代码执行)。

(A6) 远程代码执行(RCE)
RCE攻击通常针对软件应用程序、网络服务或服务器中的漏洞,以远程执行任意代码。虽然RCE攻击通常不直接适用于LLMs,但如果LLM集成到网络服务中(例如,https://chat.openai.com/),并且该服务的基础架构或代码存在RCE漏洞,它可能会导致LLM环境的泄露。Tong等人[250]在六个框架中识别了13个漏洞,包括12个RCE漏洞和1个任意文件读写漏洞。此外,在测试的51个应用程序中,有17个被发现存在漏洞,其中16个容易受到RCE攻击,1个容易受到SQL注入攻击。这些漏洞允许攻击者通过提示注入在应用程序服务器上执行任意代码。

(A7) 侧信道
虽然LLMs本身通常不会通过传统侧信道(如功耗或电磁辐射)泄露信息,但在实际部署场景中,它们可能容易受到某些侧信道攻击。例如,Edoardo等人[251]引入了隐私侧信道攻击,这些攻击利用系统级组件(例如数据过滤、输出监控)以比独立模型实现的速率高得多的速率提取私人信息。提出了涵盖整个机器学习生命周期的四类侧信道,使得增强的成员推理攻击和新威胁(例如提取用户的测试查询)成为可能。例如,研究表明,在应用差分隐私训练之前对训练数据进行去重,会创建一个侧信道,从而破坏隐私保证。

(A8) 供应链漏洞
供应链漏洞指的是LLM应用程序生命周期中可能出现的风险,这些风险可能源于使用脆弱的组件或服务。这些包括第三方数据集、预训练模型和插件,任何这些都可能破坏应用程序的完整性[134]。该领域的大多数研究都集中在插件的安全性上。LLM插件是一个扩展或附加模块,用于增强LLM的功能。已经开发了第三方插件以扩展其功能,使用户能够执行各种任务,包括网络搜索、文本分析和代码执行。然而,安全专家提出的一些担忧[134]、[252]包括插件可能被用来窃取聊天记录、访问个人信息或在用户计算机上执行代码。这些漏洞与插件中使用的OAuth有关,OAuth是跨在线帐户共享数据的网络标准。Umar等人[253]通过设计一个框架来解决这个问题。该框架制定了一个广泛的攻击分类,这些攻击特定于LLM平台,考虑到插件、用户和LLM平台本身的功能。通过考虑这些利益相关者之间的关系,该框架有助于识别潜在的安全性、隐私和安全风险。

6.2. LLMs的防御

在这一部分,我们检查了针对与LLMs相关的各种攻击和漏洞的现有防御方法的范围。

6.2.1. 模型架构中的防御

模型架构决定了知识和概念如何存储、组织和上下文交互,这在大型语言模型的安全性中至关重要。有许多工作[254]、[255]、[256]、[257]深入研究了模型容量如何影响LLMs的隐私保护和鲁棒性。Li等人[254]揭示了使用适当的非标准超参数,较大参数尺寸的语言模型可以更有效地以差分隐私方式训练,与较小的模型相比。Zhu等人[255]和Li等人[256]发现,具有较大容量的LLMs,如具有更广泛参数尺寸的模型,通常在对抗性攻击方面表现出增加的鲁棒性。这一点也由Yuan等人[257]在分布外(OOD)鲁棒性场景中得到验证。除了LLMs自身的架构外,研究还集中在通过将它们与外部模块(包括知识图谱[258]和认知架构(CAs)[259]、[260])结合起来提高LLM安全性。Romero等人[261]提出通过将各种认知架构整合到LLMs中来提高AI鲁棒性。Zafar等人[262]旨在通过知识图谱增强LLMs的推理能力来建立对AI的信任。

6.2.2. LLM训练和推理中的防御

LLM训练中的防御策略
LLM训练的核心组成部分包括模型架构、训练数据和优化方法。关于模型架构,我们检查表现出增加对恶意使用的鲁棒性的值得信赖的设计。对于训练语料库,我们的调查侧重于在生成、收集和清洗训练数据期间减少不良属性的方法。在优化方法方面,我们回顾了开发安全和安全优化框架的现有工作。

  • 语料库清洗
    LLMs是由它们的训练语料库塑造的,它们从中学习行为、概念和数据分布[263]。因此,训练语料库的质量[264]、[265]对LLMs的安全性至关重要。然而,人们普遍认为,从网络收集的原始语料库充满了公平性[266]、毒性[267]、隐私[181]、真实性[268]等问题。已经做出了大量努力来清洗原始语料库并为LLMs创建高质量的训练语料库[269]、[270]、[271]、[272]、[273]、[274]。总的来说,这些流程包括以下步骤:语言识别[269]、[275]、消毒[267]、[276]、[277]、[278]、去偏见[279]、[280]、[281]、去标识化(个人可识别信息(PII))[282]、[283],以及去重[284]、[285]、[286]、[287]。去偏见和消毒旨在从训练语料库中移除不良内容。

  • 优化方法
    优化目标在指导LLMs如何从训练数据中学习方面至关重要,影响鼓励或惩罚的行为。这些目标影响着语料库中知识和概念的优先级,最终影响LLMs的整体安全性和道德一致性。在这种情况下,像对抗性训练[288]、[289]、[290]、[291]、[292]和鲁棒微调[293]、[294]这样的鲁棒训练方法显示出对基于扰动的文本攻击的弹性。从图像领域传统的对抗性训练[295]中汲取灵感,Ivgi等人[296]和Yoo等人[291]通过生成关于离散标记的扰动,将对抗性训练应用于LLMs。Wang等人[289]将这种方法扩展到连续嵌入空间,促进了更实际的收敛,随后的研究[288]、[290]、[292]跟进。安全对齐[297],作为一种新兴的学习范式,使用对齐良好的附加模型或人类注释指导LLM行为,在道德对齐方面证明是有效的。与其他LLMs对齐的努力[298]和LLMs本身[299]。在人类注释方面,Zhou等人[300]和Shi等人[301]强调了高质量训练语料库的重要性,这些语料库具有精心策划的指令和输出,以增强LLMs中的指令遵循能力。Bianchi等人[302]强调,通过在微调期间纳入有限百分比(例如3%)的安全示例,可以显著提高LLMs的安全性。

LLM推理中的防御策略
当LLMs作为云服务部署时,它们通过接收用户的提示或指令,并生成完成的句子作为响应来运行。鉴于这种交互模型,实施测试时间LLM防御成为确保安全和适当输出的必要和关键方面。一般来说,测试时间防御包括一系列策略,包括预处理提示和指令以过滤或修改输入,检测可能表明滥用或有问题的查询的异常事件,以及后处理生成的响应以确保它们遵守安全和道德准则。测试时间LLM防御对于在实时应用程序中维护LLMs的完整性和可信度至关重要。

  • 指令处理(预处理)。指令预处理对用户发送的指令应用转换,以破坏潜在的对抗性上下文或恶意意图。它起着至关重要的作用,因为它阻止了大多数恶意使用,并防止LLM接收到可疑的指令。一般而言,指令预处理方法可以分为指令操作[303]、[304]、[305]、[306]、[307]、净化[308]和防御性演示[224]、[249]、[309]。Jain等人[306]和Kirchenbauer等人[305]评估了针对越狱攻击的多种基线预处理方法,包括重新标记化和释义。Li等人[308]提议通过首先遮蔽输入标记,然后使用其他LLM预测被遮蔽的标记来净化指令。预测的标记将作为净化后的指令。Wei等人[224]和Mo等人[309]证明,在指令中插入预定义的防御性演示可以有效地防御LLM的越狱攻击。

  • 恶意检测(处理中)恶意检测对LLM中间结果(如给定指令的神经元激活)提供深入检查,这些检查对恶意使用更敏感、更准确、更具体。Sun等人[310]提出使用生成的反向概率来检测后门指令。Xi等人[311]从掩码敏感性的角度区分正常和投毒的指令。Shao等人[303]根据文本相关性识别可疑词语。Wang等人[312]根据多代之间语义一致性检测对抗性示例,这在Duan等人[313]对LLM不确定性量化的研究中已有探索。除了LLM的内在属性外,还有利用语言统计属性的工作,如检测异常词语[314]。

  • 生成处理(后处理)生成后处理指的是检查生成答案的属性(例如有害性)并在必要时应用修改,这是在向用户交付响应之前的最后一步。Chen等人[315]提出通过与多个模型候选项比较来减轻生成的毒性。Helbling等人[316]纳入了个别LLM来识别生成答案的有害性,这与Xiong等人[317]和Kadavath等人[318]分享了类似的想法,他们揭示了LLM可以被提示回答关于生成响应的信心度。

在这里插入图片描述

7. 讨论

7.1. LLM在其他安全相关主题中的应用

LLM在网络安全教育中的应用
LLM可以用于安全实践和教育[319]、[320]、[321]。例如,在软件安全课程中,学生被指派使用LLM识别并解决一个Web应用程序中的漏洞。Jingyue等人[320]研究了学生如何使用ChatGPT进行这些练习。Wesley Tann等人[321]专注于评估LLM在网络安全夺旗(CTF)练习(参与者通过利用系统漏洞找到“旗帜”)的背景下。该研究首先评估了这些LLM在不同难度级别的Cisco认证上的问题回答表现,然后检查了它们解决CTF挑战的能力。Jin等人[322]对LLM在不同架构和优化级别下对二进制代码语义的理解进行了全面研究[323],为未来这一领域的研究提供了关键见解。

LLM在网络安全法律、政策和合规性中的应用

LLM可以协助起草安全政策、指南和合规性文件,确保组织满足法规要求和行业标准。然而,重要的是要认识到,LLM的使用可能需要对当前与网络安全相关的法律和政策进行修改。LLM的引入可能会引起新的法律和监管考虑,因为这些模型可能影响网络安全、数据保护和隐私的各个方面。Ekenobi等人[324]检查了由LLM引入引起的法律影响,特别关注数据保护和隐私问题。它承认ChatGPT的隐私政策包含了值得称赞的规定,用于防范潜在威胁并保护用户数据。该论文还主张强调新法律的相关性。

7.2. 未来方向

我们已经吸取了宝贵的经验,我们相信这些经验可以塑造未来的发展方向。

  • 将LLM用于机器学习特定任务。我们注意到LLM可以有效地替代传统的机器学习方法,在这种情况下,如果传统机器学习方法可以用于特定的安全应用(无论是攻击性还是防御性的),那么LLM很可能也可以应用于解决那个特定的挑战。例如,传统机器学习方法在恶意软件检测中发挥了作用,LLM同样可以被用于此目的。因此,一个有希望的途径是在机器学习作为基础或广泛采用的技术的安全应用中利用LLM的潜力。作为安全研究人员,我们能够设计基于LLM的方法来解决安全问题。随后,我们可以将这些方法与最先进的方法进行比较,以推动边界。

  • 取代人力努力。显然,LLM有潜力在攻击性和防御性安全应用中取代人力努力。例如,传统上依赖人力干预的社交工程任务,现在可以有效地使用LLM技术来执行。因此,安全研究人员的一个有希望的途径是确定传统安全任务中人力参与一直至关重要的领域,并探索用LLM能力替代这些人力努力的机会。

  • 修改传统ML攻击以适应LLM。我们已经观察到,LLM中的许多安全漏洞是传统机器学习场景中发现的漏洞的扩展。也就是说,LLM仍然是深度神经网络的特例,继承了常见的漏洞,如对抗性攻击和指令调整攻击。通过正确的调整(例如,威胁模型),传统ML攻击仍然可以对LLM有效。例如,越狱攻击是专门针对生产受限文本的指令调整攻击的一种形式。

  • 适应传统ML防御以针对LLM。传统上用于漏洞缓解的对策也可以用于解决这些安全问题。例如,已有努力利用传统的隐私增强技术(例如,零知识证明、差分隐私和联邦学习[325]、[326])来解决LLM带来的隐私挑战。探索额外的PETs技术,无论是既定方法还是创新方法,以解决这些挑战,代表另一个有希望的研究方向。

  • 解决LLM特定攻击中的挑战。如前所述,实施模型提取或参数提取攻击(例如,LLM参数的庞大规模、强大的LLM的私有和保密性)存在几个挑战。这些由LLM引入的新特性代表了格局的重大转变,可能导致新的挑战,并需要传统ML攻击方法的演变。

8. 相关工作

已经发布了许多关注点不同的LLM综述(例如,LLM的演变和分类[18]、[327]、[328]、[329]、[330]、[331]、[332],软件工程[333]、[334]和医学[12]、[335])。在本文中,我们的主要重点是LLM在安全和隐私方面。现在我们深入研究与这一特定主题相关的现有文献。Peter J. Caven[336]特别探讨了LLM(特别是ChatGPT)如何通过结合技术和社交方面可能改变当前的网络安全格局。他们更倾向于社交方面。Muna等人[337]和Marshall等人[338]讨论了ChatGPT在网络安全中的影响,强调了它的实际应用(例如,代码安全、恶意软件检测)。Dhoni等人[339]展示了LLM如何帮助安全分析师制定针对网络威胁的安全解决方案。然而,他们的作品并没有广泛解决LLM可能引入的潜在网络安全威胁。一些综述(例如[247]、[340]、[341]、[342]、[343]、[344]、[345]、[346]、[347])强调了针对LLM的威胁和攻击。与我们的作品相比,他们没有那么多文字用于LLM可能拥有的漏洞。相反,他们的主要关注点在于安全应用领域,因为他们深入研究了使用LLM发起网络攻击。Attia Qammar等人[348]和Maximilian等人[349]讨论了网络犯罪分子利用的漏洞,特别关注与LLM相关的风险。他们的作品强调了制定减轻这些威胁和漏洞的策略和措施的必要性。Haoran Li等人[106]分析了LLM当前的隐私问题,根据对手能力对它们进行了分类,并探索了现有的防御策略。Glorin Sebastian[102]探索了建立隐私增强技术(例如,差分隐私[350]、联邦学习[351]和数据最小化[352])的应用,以保护LLM的隐私。Smith等人[353]也讨论了LLM的隐私风险。我们的研究全面检查了LLM的安全和隐私方面。总之,我们的研究从三个方面对LLM的文献进行了广泛的回顾:有益的安全应用(例如,漏洞检测、安全代码生成)、不利影响(例如,网络钓鱼攻击、社交工程)和漏洞(例如,越狱攻击、提示攻击),以及它们相应的防御措施。

9. 结论

我们的工作代表了在系统地检查LLM在安全和隐私方面的多面角色方面的开创性努力。从积极的一面看,LLM在增强代码和数据安全方面做出了重大贡献,而它们的多功能性也打开了恶意应用的大门。我们还深入研究了这些模型内在的漏洞,并讨论了防御机制。我们为利用LLM的积极方面指明了前进的道路,同时减轻了它们的潜在风险。随着LLM的不断发展,并在不断扩展的应用领域中找到自己的位置,我们务必保持警惕,解决安全和隐私问题,确保这些强大的模型为数字格局做出积极贡献。

利益冲突声明
作者们声明他们没有已知的可能会影响本文报告的工作的竞争财务利益或个人关系。

  • 14
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值