论文标题
Efficient Adversarial Training in LLMs with Continuous Attacks 使用连续攻击进行大型语言模型的有效对抗训练
论文链接
Efficient Adversarial Training in LLMs with Continuous Attacks论文下载
论文作者
Sophie Xhonneux, Alessandro Sordoni, Stephan Günnemann, Gauthier Gidel, Leo Schwinn
内容简介
本文提出了一种高效的对抗训练算法(CAT),旨在提高大型语言模型(LLMs)对抗对抗性攻击的鲁棒性。传统的对抗训练方法在每次训练迭代中需要进行离散对抗攻击,计算成本高昂。为了解决这一问题,作者提出在LLM的连续嵌入空间中计算对抗攻击,从而显著提高效率。CAT算法由两个损失函数组成:第一个损失函数使模型在对抗行为数据集上对连续嵌入攻击具有鲁棒性,第二个损失函数通过在效用数据上进行微调来确保最终模型的实用性。此外,作者还引入了CAPO,一种不需要效用数据的对抗性IPO变体。实证评估表明,CAT和CAPO在不同规模的模型上显著增强了对离散攻击的鲁棒性,同时保持了模型的实用性。
分点关键点
-
对抗训练算法(CAT)
- CAT通过在连续嵌入空间中计算对抗攻击,显著降低了计算成本。该算法结合了在对抗行为数据集上的训练和在效用数