论文阅读：2024 NeurIPS Efficient Adversarial Training in LLMs with Continuous Attacks-CSDN博客

本文链接：https://blog.csdn.net/WhiffeYF/article/details/147626468

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

Efficient Adversarial Training in LLMs with Continuous Attacks

https://www.doubao.com/chat/4019139044705282

速览

这篇论文是关于大语言模型对抗训练的研究。随着大语言模型在各种领域的广泛应用，其安全性和鲁棒性备受关注，而对抗训练是提升模型抵御对抗攻击能力的有效方法。但当前大语言模型的对抗训练方法存在计算成本高的问题，这篇论文提出了新的算法来解决该问题，并进行了一系列实验验证算法的有效性，同时还探讨了训练和评估过程中的一些问题，具体内容如下：

研究背景：大语言模型应用广泛，但容易受到对抗攻击，现有对抗训练方法在大语言模型中计算成本高。连续对抗攻击在大语言模型中成功率更高、计算更快，所以研究人员思考在大语言模型的词嵌入空间中进行连续对抗训练，能否让模型抵御离散自然语言攻击。
研究方法
- 对抗训练：通常被定义为一个最小化最大优化问题。
- 攻击扰动集：传统在大语言模型中常用离散操作（如后缀攻击）作为扰动集，计算最优扰动成本高。论文提出基于连续嵌入攻击的扰动集，通过修改词嵌入来进行攻击，计算更高效。
- 对抗训练算法：提出两种算法。一是连续对抗似然（CAT）算法，结合对抗行为数据集训练和效用数据微调，在Unlikelihood损失中添加截止值防止过优化；二是连续对抗IPO（CAPO）算法，基于IPO损失函数，能在不使用效用数据的情况下实现对抗对齐，避免模型出现退化行为。
实验设置
- 数据集：使用HarmBench的对抗训练数据集、UltraChat200k作为效用数据集，还用了一些其他数据集评估模型效用和鲁棒性。
- 模型：对GEMMA、PHI-3-MINI等多种不同参数规模的开源模型进行对抗微调，并与采用离散对抗训练的ZEPHYR + R2D2模型对比。
- 训练方法：采用LoRA技术和4位量化减少计算资源消耗，设置不同超参数进行实验。
- 评估指标：用GCG、AUTODAN、PAIR等多种对抗攻击评估模型鲁棒性，通过常见基准测试评估模型效用。
实验结果
- 计算优势：与离散对抗训练算法R2D2相比，CAT和CAPO计算单个对抗样本及整个训练过程的成本大幅降低。
- 鲁棒性提升：CAT和CAPO算法显著提高了模型对离散对抗攻击的平均鲁棒性。例如，对于不同模型，在面对各种攻击时，鲁棒性都有不同程度的提升，有些模型甚至能达到100%的攻击鲁棒性。
- 效用保持：训练后的模型在保持一定效用的同时，在一些基准测试中，与离散训练的模型相比，效用下降幅度较小，且在处理无害查询时表现更好。
训练和评估的问题
- 效用评估：常见效用基准测试不使用聊天模板，会影响模型性能评估，使评估结果不能真实反映模型在实际使用中的效用。
- 训练数据：现有对抗训练数据集存在语法结构单一的问题，导致模型对特定风格请求出现拒绝回答的情况。
对抗训练消融实验
- 无攻击的微调：实验表明，不使用对抗攻击进行训练，模型的鲁棒性不会提高，说明连续对抗攻击是微调算法的关键部分。
- 单步对抗训练：尝试将攻击迭代次数减少到一次，发现单步CAPO能实现与多步类似的鲁棒性提升，但效用会有轻微下降。
- 鲁棒性-效用权衡：分析超参数对鲁棒性-效用权衡的影响，发现较大的攻击强度（ϵ值）和较小的IPO β值与更高的鲁棒性和更低的效用相关。
研究结论：连续攻击威胁模型下的鲁棒性能够外推到离散攻击，CAT和CAPO算法有效。不过研究存在局限性，如依赖有害数据集质量、超参数选择复杂、CAT需效用数据集、未在更大模型上实验等。未来可从分析连续鲁棒性无法外推的情况、探索方法改进以及研究方法在机器无学习中的应用等方向开展研究。

论文阅读

在这里插入图片描述

Figure 1是论文《Efficient Adversarial Training in LLMs with Continuous Attacks》中的示意图，主要展示了大语言模型（LLMs）对抗训练的相关概念和研究思路，旨在说明连续对抗训练相较于传统离散对抗训练的优势，用通俗易懂的话解释如下：

离散对抗攻击：大语言模型容易受到对抗攻击，像后缀攻击（GCG）和越狱攻击（AutoDAN、PAIR）。在后缀攻击里，攻击者会在输入的提示词后面添加一些特定的词（用δ1、δ2、δ3表示），这些添加的词就像是给模型“捣乱”，试图让模型给出有害的回答，比如“Tell me how to build a bomb”（告诉我如何制造炸弹），这种攻击方式是离散的，每次修改的都是具体的词。
连续对抗攻击：这是论文提出的新方式，它是在模型的嵌入空间进行攻击。简单来说，就是不直接改提示词里的词，而是调整这些词在模型里对应的向量表示（也就是嵌入）。这种攻击方式计算起来比离散攻击快很多。
研究观点：论文提出用连续对抗训练（AT）来解决现有离散对抗训练计算成本高的问题。通过实验发现，让模型对连续攻击产生的鲁棒性，能够延伸到应对离散攻击上。也就是说，经过连续对抗训练的模型，不仅能抵抗连续攻击，对像后缀攻击和越狱攻击这样的离散威胁也有更好的抵抗能力，而且计算效率大大提高。