Efficient Adversarial Training in LLMs with Continuous Attacks-water-merged

论文标题

Efficient Adversarial Training in LLMs with Continuous Attacks 使用连续攻击进行大型语言模型的有效对抗训练

论文链接

Efficient Adversarial Training in LLMs with Continuous Attacks论文下载

论文作者

Sophie Xhonneux, Alessandro Sordoni, Stephan Günnemann, Gauthier Gidel, Leo Schwinn

内容简介

本文提出了一种高效的对抗训练算法(CAT),旨在提高大型语言模型(LLMs)对抗对抗性攻击的鲁棒性。传统的对抗训练方法在每次训练迭代中需要进行离散对抗攻击,计算成本高昂。为了解决这一问题,作者提出在LLM的连续嵌入空间中计算对抗攻击,从而显著提高效率。CAT算法由两个损失函数组成:第一个损失函数使模型在对抗行为数据集上对连续嵌入攻击具有鲁棒性,第二个损失函数通过在效用数据上进行微调来确保最终模型的实用性。此外,作者还引入了CAPO,一种不需要效用数据的对抗性IPO变体。实证评估表明,CAT和CAPO在不同规模的模型上显著增强了对离散攻击的鲁棒性,同时保持了模型的实用性。

分点关键点

  1. 对抗训练算法(CAT)

    • CAT通过在连续嵌入空间中计算对抗攻击,显著降低了计算成本。该算法结合了在对抗行为数据集上的训练和在效用数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值