Efficient Adversarial Training in LLMs with Continuous Attacks-water-merged

paixiaoxin

于 2025-02-11 16:28:10 发布

阅读量805

点赞数 25

分类专栏：文献阅读论文合集文章标签：大语言模型对抗训练连续攻击鲁棒性效用数据对抗性IPO

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/paixiaoxin/article/details/145521746

版权

论文标题

Efficient Adversarial Training in LLMs with Continuous Attacks 使用连续攻击进行大型语言模型的有效对抗训练

论文链接

Efficient Adversarial Training in LLMs with Continuous Attacks论文下载

论文作者

Sophie Xhonneux, Alessandro Sordoni, Stephan Günnemann, Gauthier Gidel, Leo Schwinn

内容简介

本文提出了一种高效的对抗训练算法（CAT），旨在提高大型语言模型（LLMs）对抗对抗性攻击的鲁棒性。传统的对抗训练方法在每次训练迭代中需要进行离散对抗攻击，计算成本高昂。为了解决这一问题，作者提出在LLM的连续嵌入空间中计算对抗攻击，从而显著提高效率。CAT算法由两个损失函数组成：第一个损失函数使模型在对抗行为数据集上对连续嵌入攻击具有鲁棒性，第二个损失函数通过在效用数据上进行微调来确保最终模型的实用性。此外，作者还引入了CAPO，一种不需要效用数据的对抗性IPO变体。实证评估表明，CAT和CAPO在不同规模的模型上显著增强了对离散攻击的鲁棒性，同时保持了模型的实用性。

分点关键点

对抗训练算法（CAT）
- CAT通过在连续嵌入空间中计算对抗攻击，显著降低了计算成本。该算法结合了在对抗行为数据集上的训练和在效用数

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。