总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
https://arxiv.org/pdf/2405.15589
Efficient Adversarial Training in LLMs with Continuous Attacks
https://www.doubao.com/chat/4019139044705282
速览
这篇论文是关于大语言模型对抗训练的研究。随着大语言模型在各种领域的广泛应用,其安全性和鲁棒性备受关注,而对抗训练是提升模型抵御对抗攻击能力的有效方法。但当前大语言模型的对抗训练方法存在计算成本高的问题,这篇论文提出了新的算法来解决该问题,并进行了一系列实验验证算法的有效性,同时还探讨了训练和评估过程中的一些问题,具体内容如下:
- 研究背景:大语言模型应用广泛,但容易受到对抗攻击,现有对抗训练方法在大语言模型中计算成本高。连续对抗攻击在大语言模型中成功率更高、计算更快,所以研究人员思考在大语言模型的词嵌入空间中进行连续对抗训练,能否让模型抵御离散自然语言攻击。
- 研究方法
- 对抗训练:通常被定义为一个最小化最大优化问题。
- 攻击扰动集:传统在大语言模型中常用离散操作(如后缀攻击)作为扰动集,计算最优扰动成本高。论文提出基于连续嵌入攻击的扰动集,通过修改词嵌入来进行攻击,计算更高效。
- 对抗训练算法:提出两种算法。一是连续对抗似然(CAT)算法,结合对抗行为数据集训练和效用数据微调,在Unlikelihood损失中添加截止值防止过优化;二是连续对抗IPO(CAPO)算法,基于IPO损失函数,能在不使用效用数据的情况下实现对抗对齐,避免模型出现退化行为。
- 实验设置
- 数据集:使用HarmBench的对抗训练数据集、UltraChat200k作为效用数据集,还用了一些其他数据集评估模型效用和鲁棒性。
- 模型:对GEMMA、PHI-3-MINI等多种不同参数规模的开源模型进行对抗微调,并与采用离散对抗训练的ZEPHYR + R2D2模型对比。
- 训练方法:采用LoRA技术和4位量化减少计算资源消耗,设置不同超参数进行实验。
- 评估指标:用GCG、AUTODAN、PAIR等多种对抗攻击评估模型鲁棒性,通过常见基准测试评估模型效用。
- 实验结果
- 计算优势:与离散对抗训练算法R2D2相比,CAT和CAPO计算单个对抗样本及整个训练过程的成本大幅降低。
- 鲁棒性提升:CAT和CAPO算法显著提高了模型对离散对抗攻击的平均鲁棒性。例如,对于不同模型,在面对各种攻击时,鲁棒性都有不同程度的提升,有些模型甚至能达到100%的攻击鲁棒性。
- 效用保持:训练后的模型在保持一定效用的同时,在一些基准测试中,与离散训练的模型相比,效用下降幅度较小,且在处理无害查询时表现更好。
- 训练和评估的问题
- 效用评估:常见效用基准测试不使用聊天模板,会影响模型性能评估,使评估结果不能真实反映模型在实际使用中的效用。
- 训练数据:现有对抗训练数据集存在语法结构单一的问题,导致模型对特定风格请求出现拒绝回答的情况。
- 对抗训练消融实验
- 无攻击的微调:实验表明,不使用对抗攻击进行训练,模型的鲁棒性不会提高,说明连续对抗攻击是微调算法的关键部分。
- 单步对抗训练:尝试将攻击迭代次数减少到一次,发现单步CAPO能实现与多步类似的鲁棒性提升,但效用会有轻微下降。
- 鲁棒性-效用权衡:分析超参数对鲁棒性-效用权衡的影响,发现较大的攻击强度(ϵ值)和较小的IPO β值与更高的鲁棒性和更低的效用相关。
- 研究结论:连续攻击威胁模型下的鲁棒性能够外推到离散攻击,CAT和CAPO算法有效。不过研究存在局限性,如依赖有害数据集质量、超参数选择复杂、CAT需效用数据集、未在更大模型上实验等。未来可从分析连续鲁棒性无法外推的情况、探索方法改进以及研究方法在机器无学习中的应用等方向开展研究。
论文阅读
Figure 1是论文《Efficient Adversarial Training in LLMs with Continuous Attacks》中的示意图,主要展示了大语言模型(LLMs)对抗训练的相关概念和研究思路,旨在说明连续对抗训练相较于传统离散对抗训练的优势,用通俗易懂的话解释如下:
- 离散对抗攻击:大语言模型容易受到对抗攻击,像后缀攻击(GCG)和越狱攻击(AutoDAN、PAIR)。在后缀攻击里,攻击者会在输入的提示词后面添加一些特定的词(用δ1、δ2、δ3表示),这些添加的词就像是给模型“捣乱”,试图让模型给出有害的回答,比如“Tell me how to build a bomb”(告诉我如何制造炸弹) ,这种攻击方式是离散的,每次修改的都是具体的词。
- 连续对抗攻击:这是论文提出的新方式,它是在模型的嵌入空间进行攻击。简单来说,就是不直接改提示词里的词,而是调整这些词在模型里对应的向量表示(也就是嵌入)。这种攻击方式计算起来比离散攻击快很多。
- 研究观点:论文提出用连续对抗训练(AT)来解决现有离散对抗训练计算成本高的问题。通过实验发现,让模型对连续攻击产生的鲁棒性,能够延伸到应对离散攻击上。也就是说,经过连续对抗训练的模型,不仅能抵抗连续攻击,对像后缀攻击和越狱攻击这样的离散威胁也有更好的抵抗能力,而且计算效率大大提高。