LANGUAGE MODEL INVERSION

828 篇文章

已下架不支持订阅

本文探讨了语言模型反转的可能性,即从模型的下一个token分布中恢复隐藏的输入提示。实验显示,即使在不完全访问词汇表的情况下,也能通过搜索恢复概率向量。在Llama-2 7b模型上,反转方法实现了59的BLEU分数和78的token级别F1得分,能准确恢复27%的提示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《LANGUAGE MODEL INVERSION》的翻译。

摘要

语言模型在下一个token上产生分布;我们可以使用它来恢复提示token吗?我们考虑了语言模型反转的问题,并表明下一个标记概率包含了关于前一文本的惊人数量的信息。通常,在文本对用户隐藏的情况下,我们可以恢复文本,从而激发了一种仅在给定模型当前分布输出的情况下恢复未知提示的方法。我们考虑了各种模型访问场景,并展示了即使没有对词汇表中的每个token进行预测,我们也可以通过搜索来恢复概率向量。在Llama-2 7b上,我们的反转方法重建BLEU为59、token级别F1为78的提示,并准确恢复27%的提示。

1 引言

2 相关工作

3 提示构建

4 方法:学习反转概率

5 通过API提取logits

6 实验设置

7 结果

8 结论和未来工作

我们从语言模型输出定义了反转问题,并从攻击和防御的角度分析了反转方法。我们表明,

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值