大语言模型的强大能力和广泛应用引发了大量的相关研究,尤其是其在安全和隐私方面所带来的问题。本报告以 2024 年发表在《High-Confidence Computing》期刊上的一篇综述论文为核心,介绍大语言模型安全和隐私研究概况。
1 背景和动机
大型语言模型(Large Language Model,LLM)是具有大量参数且执行预训练任务(例如,掩码语言建模和自回归预测)的语言模型,它通过对来自大量文本数据的语义和概率进行建模,来理解和处理人类语言。例如 ChatGPT 和 Bard,已经彻底改变了自然语言的理解和生成,它们拥有深厚的语言理解能力、文本生成能力、上下文意识和解决问题的能力,广泛应用于搜索引擎、客户支持、翻译等诸多领域。
有许多 LLM 在 2023 年开发并发布,非常受欢迎。著名的例子包括 OpenAI 的 ChatGPT,MetaAI 的 LLaMA,Databtick 的 Dolly。LLM 在安全界越来越受欢迎,截至 2023 年 2 月一项研究报告称,GPT-3 在一个代码存储库中发现了 213 个安全漏洞(只有 4 个被证明是假阳性)。相比之下,市场上领先的商业工具只检测到了 99 个漏洞。最近,一些由 LLM 驱动的安全论文出现在了著名的会议上。例如 2023 年的 S&P 会议,Pearce H.等人进行了一项商用 LLM 的调查,表明大模型能够成功解决安全漏洞环境下的代码合成场景。2024 年的 NDSS 会议,Fuzz4All 工具展示了使用 LLM 对输入数据的生成和变异,创新了一种自动提示技术和模糊测试循环。
这些显著的初步尝试促使深入研究三个与安全相关的关键研究问题:
- 问题 1:LLM 如何对不同领域的安全和隐私产生积极影响?
- 问题 2:LLM 会对网络安全领域产生哪些潜在的风险?
- 问题 3:LLM 自身有哪些漏洞和弱点,如何抵御这些威胁?
为了全面解决这些问题,综述进行了细致的文献回顾,收集了 281 篇关于 LLM 与安全和隐私相关的论文。将这些论文分为三组
- The Good:那些强调 LLM 有利于安全的文献
- The Bad:那些探索利用 LLM 破环安全的文献
- The Ugly:那些关注讨论 LLM 自身漏洞的文献
2 大语言模型
大语言模型代表了语言模型的演变,最初的语言模型在本质上是基于统计学的,为计算语言学奠定了基础,Transformer 的出现大大增加了它们的规模。这些模型在大量的数据集上经过了广泛的训练,以理解和产生模仿人类语言的文本,由此在自然语言处理领域取得了许多实质性的进展。根据 Yang 等人的研究,一个 LLM 应该至少有 4 个关键特征。
- 理解能力。模型应该展示对自然语言文本的深刻理解,能够提取信息并执行各种语言相关的任务(如翻译)。
- 提示生成。模型应该有能力在提示时生成类似于人类习惯的文本。
- 上下文意识。模型应该通过考虑领域专业知识等因素来表现出上下文意识。
- 问题决策。模型应该擅长利用文本段落中下信息来解决问题和做出决策。
此外,该研究还整理了大语言模型的发展演化树,根据时间轴进行了阶段划分,按模型采用的不同框架进行颜色标记,同时还区分了开源和闭源项目,标注了发布机构,如图 1 所示。