LLM安全隐私问题全梳理！美国德雷塞尔团队高质量综述重磅发布

最新推荐文章于 2024-07-23 14:11:45 发布

大语言模型安全前沿

最新推荐文章于 2024-07-23 14:11:45 发布

阅读量813

点赞数 1

文章标签：安全 chatgpt 人工智能

本文链接：https://blog.csdn.net/llmsecurity/article/details/134876438

版权

【导读】最近，来自费城德雷塞尔大学的研究团队发表了一篇高质量的综述，细致地盘点了有关LLM安全和隐私你该知道的所有事。

大家好，相信大家对ChatGPT已经非常熟悉了。作为大语言模型（LLM）的一种，ChatGPT就像是超级智能的文本生成机器，能够像人一样理解语言、写出很酷的东西，还知道上下文，能够解决各种问题。这些家伙在各个领域都派上了用场，比如搜索引擎、客户支持，甚至翻译。今天我们要聊的是包括ChatGPT在内的大语言模型安全。

近些年，LLMs在安全领域也火了起来。它们可不仅仅是文艺青年，还是网络安全战士。它们可以找出网站和应用的安全漏洞，还可以在网络安全任务中大显身手。这不，近期，德雷塞尔的安全团队就深入LLMs和安全、隐私之间的关系。

研究团队从头到脚分析了这个问题，发现LLMs在网络安全方面可谓是双刃剑。一方面，它们可以加强代码和数据的安全性，比传统方法更强大。但另一方面，由于它们拥有类似人类的思维能力，有些坏人也能利用它们来进行各种攻击。比如说，针对用户的隐私进行人肉开盒。

研究团队还找出了一些迫切需要更多研究的领域。比如，关于如何防止人家从LLMs那里“偷”模型和参数的研究还不够多，有些只是理论的，而且因为LLM的参数规模和机密性问题，很难进行。还有最近出现的一项技术叫做“安全指令调整”（听名字就高大上有木有），也需要更多的研究。

论文地址：https://arxiv.org/abs/2312.02003

文章概览（Overview）

为了达到这个目标，该团队的研究将围绕三个关键的研究问题展开全面的文献综述：

• 好的方面（the Good）：LLMs在各个领域如何积极地对安全和隐私做出贡献，以及它们对安全社区可能带来的潜在好处是什么？

• 坏的方面（the Bad）：在网络安全背景下，LLMs的使用可能带来哪些潜在风险和威胁？具体来说，LLMs如何被用于恶意目的，以及使用LLMs可以促成或放大哪些网络攻击？

• 丑陋的方面（the Ugly）：LLMs存在哪些漏洞和弱点，这些漏洞如何对安全和隐私构成威胁？

德雷塞尔大学科研团队进行了Google Scholar搜索，并汇编了与LLMs涉及的安全和隐私相关的论文。如图1所示，该团队总共收集了81篇“好的”论文，强调了LLMs对安全和隐私的积极贡献。此外，他们还找到了49篇“负面”的论文，其中攻击者利用LLMs来针对用户，以及108篇“丑陋”的论文，其中作者发现了LLMs内部的漏洞。大多数论文是在2023年发表的，只有43篇在2021年和2022年之间发布。值得注意的是，每个月发布的论文数量呈持续上升趋势，10月达到了峰值，发表了最多的论文（总共38篇，占所有收集论文的15.97%）。可以想象，在不久的将来可能会有更多与安全相关的LLMs论文发表。

发现1： 在安全相关的应用方面，即“好”的和“坏”的部分，明显地，大多数研究人员更倾向于利用LLMs来增强安全社区，比如在漏洞检测和安全测试生成方面，尽管在这个阶段LLMs存在一些漏洞。相对较少的研究人员使用LLMs进行攻击。总结而言，LLMs对安全社区的积极贡献多于负面影响。

好的方面（the Good）

好的方面可以分为代码安全和数据安全。

代码安全方面：LLMs可以访问一个庞大的代码片段和跨不同编程语言和领域的示例的存储库。它们利用其先进的语言理解和上下文分析能力来彻底审查代码和与代码相关的文本。更具体地说，LLMs可以在整个代码安全生命周期中发挥关键作用，包括编写、测试用例生成、执行和监控（漏洞扫描，恶意代码检测，代码修复）。

发现2：代码方面，与最先进的方法进行比较表明，大多数研究人员得出的结论是，基于LLM的方法优于传统方法（优势包括更高的代码覆盖率、更高的检测准确性、更低的成本等）。只有四篇论文认为基于LLM的方法不超越最先进的方法。关于基于LLM的方法最经常讨论的问题是，在检测漏洞或错误时，它们往往会产生高假阴性和假阳性。

数据安全方面： LLMs对数据安全领域做出了有价值的贡献，提供了多层面的方法来保护敏感信息。根据LLMs增强的数据保护特定方面，将研究论文组织成了不同的类别。这些方面包括数据完整性，确保数据在其生命周期内保持未损坏；数据可靠性，确保数据的准确性；数据保密性，专注于防止未经授权的访问和敏感信息的披露；以及数据可追溯性，涉及跟踪和监控数据访问和使用。

发现3：同样值得注意的是，LLMs在数据保护方面表现出色，超越了当前的解决方案，需要较少的手动干预。ChatGPT是广泛应用于各种安全应用中的主要LLM。其多功能性和有效性使其成为各种与安全相关的任务的首选选择，进一步巩固了它在人工智能和网络安全领域的地位。

坏的方面（the Bad）

根据攻击在系统基础设施中的位置，将攻击分类为五组。这些分类包括硬件级攻击、操作系统级攻击、软件级攻击、网络级攻击和用户级攻击。

发现4：如图所示，与其他攻击相比，可以明显看出，用户级攻击是最常见的，拥有33篇论文的显著数量。这种主导地位可以归因于LLMs越来越类似人类的推理能力，使它们能够生成类似人类的对话和内容（例如科研不端、社会工程等）。目前，LLMs不具备与操作系统级或硬件级功能相同水平的访问权限。这一观察结果在其他级别的攻击中也是一致的。例如，在网络级别，LLMs可以被滥用用来创建钓鱼网站和绕过CAPTCHA验证机制。

丑陋的方面（the Ugly）

同时，团队深入探讨可能针对LLMs的潜在漏洞和攻击。研究将这些威胁分为两个不同的类别：AI模型固有漏洞，和非AI模型固有漏洞。

AI模型固有漏洞和威胁：这些漏洞和威胁源于LLMs的本质和架构，考虑到LLMs本质上是AI模型本身。例如，攻击者可以操纵输入数据以生成LLMs的不正确或不希望的输出。

非AI模型固有漏洞和威胁：这包括LLMs可能遇到的外部威胁和新漏洞（在传统AI模型中没有观察或调查到的漏洞）。这些攻击可能不会与AI模型的内部机制密切相关，但它们可以带来重大风险。非AI固有攻击的示例包括系统级漏洞（例如，远程代码执行）。

发现5：目前，关于模型提取攻击、参数提取攻击或提取其他中间结果的研究有限。虽然有一些关于这些主题的提及，但它们往往仍然主要是理论性的，具有有限的实际实施或经验性探索。我们认为，LLMs中参数的规模之大使得这些传统方法变得更加复杂，使它们效果不佳，甚至不可行。此外，最强大的LLMs是私有的，其权重、参数和其他详细信息都是保密的，进一步保护它们免受传统攻击策略的侵害。对由这些LLMs生成的输出的严格审查甚至挑战了传统的黑盒机器学习攻击，因为它限制了攻击者利用或分析模型的响应的能力。

防御方案：团队审查了现有的各种针对与LLMs相关的各种攻击和漏洞的防御方法。根据应用这些防御方法的阶段对它们进行了分类。具体来说，团队关注在训练阶段实施的方法，如优化和训练语料库，以及在推断阶段使用的方法，包括预处理提示和后处理生成的输出。

发现6：在LLM训练中的防御方面，明显缺乏研究来考察模型架构对LLM安全性的影响，这可能是由于训练或微调大型语言模型涉及高计算成本。团队观察到，安全指令调整是一个相对新的发展，值得进一步研究和关注。

未来方向总结

科研团队从中得出了一些宝贵的经验教训，他们相信这些经验可以塑造未来的方向。

在ML特定安全相关任务中使用LLMs。他们注意到LLMs可以有效地替代传统的机器学习方法，如果传统的机器学习方法可以在特定的安全应用中使用（无论是攻击性的还是防御性的），那么LLMs也有很大可能可以应用于解决特定的挑战。
在安全相关任务中取代人类工作。显然，LLMs有潜力在攻击性和防御性的安全应用中取代人类工作。例如，涉及社会工程的任务，传统上依赖于人类干预，现在可以使用LLM技术有效地执行。因此，安全研究人员的一个有前途的方向是确定传统安全任务中人类参与至关重要的领域，并探索用LLM能力替代这些人类的劳动。
修改用于LLMs的传统ML攻击。他们观察到，LLMs中的许多安全漏洞是传统机器学习场景中的漏洞扩展。也就是说，LLMs仍然是深度神经网络的一个专门实例，继承了常见的漏洞，如对抗性攻击和指令调整攻击。通过适当的调整（例如，威胁模型），传统的ML攻击仍然可以对LLMs产生影响。例如，越狱攻击是一种特定形式的旨在生成受限文本的指令调整攻击。
为LLMs调整传统ML防御。传统用于漏洞缓解的对策也可以用来解决这些安全问题。例如，已经存在的努力利用传统的隐私增强技术（例如零知识证明、差分隐私和联邦学习）来应对LLMs引发的隐私挑战。探索额外的PETs技术，无论是已建立的方法还是创新方法，来应对这些挑战，都代表着另一个有前途的研究方向。
解决LLMs特定攻击中的挑战。如前所讨论的，实施模型提取或参数提取攻击存在一些挑战（例如LLMs参数的规模庞大，强大LLMs的私有权和保密性）。LLMs引入的这些新特性代表了景观的重大转变，可能导致新的挑战，并需要传统ML攻击方法的演变。