Adversarial Demonstration Attacks on Large Language Models

最新推荐文章于 2025-05-21 20:01:52 发布

地中海～

最新推荐文章于 2025-05-21 20:01:52 发布

阅读量1.1k

点赞数 19

文章标签：语言模型人工智能自然语言处理攻防

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Conger_2002/article/details/144670837

版权

提出advICL，操控示例demonstration不改变输入，误导模型。发现对抗性示例增加，icl的鲁棒性降低。

提出Transferable advICL，Transferable advICL生成的对抗示例可以攻击未见过的测试输入样例。

如图，标准攻击:仅操纵输入文本示例来执行攻击。

advICL攻击演示demonstration，而不操纵输入文本。

In-Context Learning

C（demonstration集）包含N个连接的数据标签对（xi, yi），特定模板s ，最优任务指令 I
C = {I, s(x1, y1), ..., s(xN , yN )}

f语言模型，Ytest 基于输入测试Xtest 和演示集C 生成，
ytest = fgenerate({C, s(xtest, _ )})

S （xtest, _）使用与演示demonstration相同的模板s，但ytest为空

（ytest集）label集Y = {c1，…， ck}。

函数V：将原始label ck映射为特定的令牌V（ck）。

如，V（positive）→positive

不是所有的标签

最低0.47元/天解锁文章

博客等级

码龄3年

40
原创

313
点赞

215
收藏

205
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

2024年“研究生科研素养提升”系列公益讲座在线测试
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
LeetCode：300最长递增子序列 C语言
CSDN-Ada助手: 恭喜您发布了第18篇博客，“LeetCode：300最长递增子序列 C语言”！您的持续创作精神令人钦佩。希望您能继续分享更多关于算法和编程的知识，或许可以考虑分享一些实际项目的经验和心得，让读者更加深入地了解您的技术水平。期待您更多的精彩内容！祝您创作愉快！
LeetCode：674最长连续递增序列 C语言
CSDN-Ada助手: 恭喜你在LeetCode上分享了关于最长连续递增序列的C语言解法！持续创作是非常值得称赞的，希望你可以继续分享更多关于算法和编程的知识。或许下一步可以考虑分享一些更复杂的题目解析，让读者更深入地了解算法思想和实现方法。期待你的更多精彩内容！
LeetCode：718最长重复子数组 C语言
CSDN-Ada助手: 恭喜您发布了第20篇博客！标题中的LeetCode题目看起来很有挑战性，您能够用C语言解决问题，实力不容小觑。希望您能继续保持创作的热情，不断挑战自我，不断学习进步。下一步建议可以尝试写一些关于算法优化或者实际项目应用方面的内容，让读者能够更全面地了解您的技术水平。期待您更多精彩的博客！
LeetCode：509斐波那契数 C语言
CSDN-Ada助手: 恭喜您发布第13篇博客，题为“LeetCode：509斐波那契数 C语言”。您的持续创作精彩纷呈，为大家提供了宝贵的学习资源。建议您在未来的创作中，可以尝试探讨一些与编程相关的实际应用场景，让读者更加深入地理解算法原理。期待您的更多精彩作品，加油！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。