上海人工智能实验室：LLMs对话安全综述——攻击、防御与评估全解析

本文链接：https://blog.csdn.net/m0_59163425/article/details/142621005

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何确保大型语言模型（LLMs）在对话应用中的安全性，防止其生成有害响应。研究难点：该问题的研究难点包括：1）攻击方法的多样性和复杂性，包括推理时攻击和训练时攻击；2）防御方法的鲁棒性和有效性，如何在不影响模型性能的前提下增强安全性；3）评估方法的全面性和标准化，如何准确评估攻击和防御方法的效果。相关工作：该问题的研究相关工作有：Zou等人（2023）、Mozes等人（2023）、Li等人（2023d）等的研究，这些研究分别探讨了LLMs的安全性问题的不同方面，但缺乏一个统一的综述来整合不同的研究方向。

研究方法

这篇论文提出了一个综合性的框架来解决LLMs对话安全问题，涵盖了攻击、防御和评估三个方面。具体来说，

攻击方法：攻击方法分为推理时攻击和训练时攻击。推理时攻击：通过对抗性提示（adversarial prompts）来诱导LLMs生成有害输出，而不修改其权重。推理时攻击进一步分为红队攻击、模板攻击和神经提示到提示攻击。红队攻击：构建恶意指令来模拟常见用户查询，分为人类红队攻击和模型红队攻击。模板攻击：通过操纵原始红队指令来创建更复杂的对抗性提示，分为基于启发式的攻击和基于优化的攻击。基于启发式的攻击：利用人类先验知识设计攻击模板。基于优化的攻击：通过优化特定对抗目标自动搜索提示模板。神经提示到提示攻击：使用参数化序列到序列模型对每个提示进行迭代修改，保持原始语义。训练时攻击：通过精心设计的数据来微调目标模型，破坏其内在安全性。训练时攻击包括数据污染和后门攻击。防御方法：防御方法包括安全对齐、推理引导和输入输出过滤。安全对齐：通过微调预训练模型来增强其内部安全能力，使用监督微调（SFT）和人类反馈强化学习（RLHF）等方法。推理引导：利用系统提示来指导LLMs生成更安全的响应，例如通过强调安全问题或指示模型进行自我检查。输入输出过滤：使用规则基过滤器和模型基过滤器来检测和过滤恶意输入或输出。

实验设计

论文中没有详细描述具体的实验设计，但提到了一些评估方法和使用的数据集。评估方法包括红队数据集、可选的越狱攻击、带有防御的LLMs和最终的LLM输出。使用的数据集包括RTPrompts、BAD、SaFeRDialogues、Truthful-QA、HH-RedTeam、ToxiGen、SafetyBench、AdvBench、Red-Eval、LifeTox、FFT和CyberSec.Eval等。

结果与分析

攻击成功率（ASR）：这是衡量攻击有效性的关键指标，通过手动检查输出或将输出与参考答案进行比较来评估。其他细粒度指标：包括攻击的鲁棒性（如对扰动的敏感性）、误报率（如模型输出的有害性是否符合预期）和效率（如攻击所需的时间）。总体结论这篇论文提供了LLMs对话安全性的全面概述，介绍了各种攻击方法、防御策略和评估方法。尽管论文的范围有限，但其对发展有益于社会的LLMs具有重要意义。未来的研究方向包括解决攻击的领域多样性问题、防御的误拒绝/夸大安全性问题和评估的统一标准和指标问题。

论文评价

优点与创新

全面性：论文提供了对LLM对话安全性的全面概述，涵盖了攻击、防御和评估三个方面，提供了一个结构化的总结。
详细的分类：论文将所有提到的研究按照攻击方法、防御方法和评估方法进行了分类，方便读者查阅。
多种攻击方法：详细介绍了推理时攻击和训练时攻击的多种方法，包括红队攻击、模板攻击和神经提示到提示攻击等。
多种防御策略：讨论了安全对齐、推理引导和输入输出过滤等多种防御策略，并提供了具体的算法和数据集。
详细的评估方法：介绍了评估方法、数据集和评估指标，帮助读者准确判断攻击和防御方法的有效性。
开源框架：提供了一个开源工具包（如NeMo Guardrails），允许用户根据特定需求定制和控制LLMs。

不足与反思

领域多样性：攻击方法的领域多样性使得攻击容易受到回顾性防御的影响。例如，模板攻击依赖于固定模式，而优化方法遵循特定范式，使其更容易通过领域对齐数据进行回顾性修补。
防御的误拒绝/过度安全：当LLMs错误地将安全的问题识别为危险并拒绝回答时，会出现防御的误拒绝或过度安全现象。这种现象源于过度的防御机制，如过度对齐或不准确的过滤，可能导致有用性的丧失。
统一的评估标准和指标：评估中缺乏统一的标准和指标。ASR通常用于评估GPTs的方法，但动态和差异化的指标（如不同GPT版本和不同的评估提示）可能导致不同的结果。缺乏标准化评估标准阻碍了对最先进进展的评估和不同技术之间的比较。

关键问题及回答

问题1：论文中提到的推理时攻击和训练时攻击有哪些具体的区别？

推理时攻击和训练时攻击的主要区别在于它们对LLMs的影响方式和时间点。推理时攻击通过在模型推理过程中引入对抗性提示（adversarial prompts）来诱导模型生成有害输出，而不改变模型的权重。这种攻击方式通常在模型部署后进行，目标是检测模型在实际使用中的安全性。推理时攻击的常见方法包括红队攻击、模板攻击和神经提示到提示攻击。

相比之下，训练时攻击则是在模型的训练过程中进行的，通过精心设计的数据来微调目标模型，从而破坏其内在的安全性。训练时攻击的目标是削弱模型的安全机制，使其更容易生成有害内容。常见的训练时攻击方法包括数据污染和后门攻击。数据污染是指向训练数据中注入恶意样本，而后门攻击则是通过在数据中插入特定的触发词或模式，使模型在接收到这些触发词时表现出异常行为。

问题2：论文中提到的防御方法——安全对齐（Safety Alignment）具体是如何实现的？

安全对齐（Safety Alignment）是一种通过微调预训练模型来增强其内部安全能力的防御方法。其核心思想是利用高质量的示范数据（prompt-response demonstrations）来指导模型的行为，使其在生成响应时更加安全和有用。具体实现步骤如下：

数据收集：收集包含高质量示范数据的数据集，这些数据集中的每个问题都对应一个高质量的答案。
监督微调（SFT）：使用监督微调方法对模型进行微调，最小化模型在示范数据上的经验损失。这确保了模型在生成响应时能够遵循安全准则。
人类反馈强化学习（RLHF）：利用人类反馈来优化模型的行为。通过收集人类对模型输出的评价，并使用这些反馈来调整模型的奖励函数，从而增强模型的安全性。
多目标优化：为了同时优化多个目标（如安全性、有用性和诚实性），可以使用多目标强化学习方法，如Multi-Objective RLHF和MODPO。通过这些方法，安全对齐能够有效地增强LLMs的内部安全能力，使其在生成响应时更加谨慎和安全。

问题3：论文中提到的评估方法有哪些？这些方法是如何设计的？

论文中提到的评估方法主要包括红队数据集、可选的越狱攻击、带有防御的LLMs和最终的LLM输出。具体设计如下：

红队数据集：使用包含恶意指令的红队数据集，这些数据集用于直接测试模型的安全性或在结合越狱攻击时使用。红队数据集涵盖多种有害内容主题，如毒性、歧视、隐私和虚假信息。
越狱攻击：作为评估的一部分，可以进行越狱攻击，以验证防御方法的有效性。越狱攻击包括模板攻击和神经提示到提示攻击，旨在突破模型的内置安全机制。
带有防御的LLMs：在评估过程中，使用经过安全对齐、推理引导和输入输出过滤等防御方法处理的LLMs。
输出分析：对LLMs生成的输出进行分析，使用关键指标如攻击成功率（ASR）来评估攻击的有效性。此外，还可以使用其他细粒度指标，如攻击的鲁棒性、误报率和效率，来全面评估防御方法的效果。通过这些评估方法，研究人员可以准确地判断攻击和防御方法的有效性，并为进一步改进LLMs的安全性提供依据。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述