LANGUAGE MODEL INVERSION

515 篇文章 3 订阅

已下架不支持订阅

本文是LLM系列文章,针对《LANGUAGE MODEL INVERSION》的翻译。

摘要

语言模型在下一个token上产生分布;我们可以使用它来恢复提示token吗?我们考虑了语言模型反转的问题,并表明下一个标记概率包含了关于前一文本的惊人数量的信息。通常,在文本对用户隐藏的情况下,我们可以恢复文本,从而激发了一种仅在给定模型当前分布输出的情况下恢复未知提示的方法。我们考虑了各种模型访问场景,并展示了即使没有对词汇表中的每个token进行预测,我们也可以通过搜索来恢复概率向量。在Llama-2 7b上,我们的反转方法重建BLEU为59、token级别F1为78的提示,并准确恢复27%的提示。

1 引言

2 相关工作

3 提示构建

4 方法:学习反转概率

5 通过API提取logits

6 实验设置

7 结果

8 结论和未来工作

我们从语言模型输出定义了反转问题,并从攻击和防御的角度分析了反转方法。我们表明,即使我们不能直接访问模型输出分布,这个攻击向量也可以用于从LM系统引出隐藏提示。
反转的极限是什么?我们的实验表明,许多关于输入的信息可以从语言模型概率中恢复,但不能估计上限。附录G.1中的标度分析表明,较大的主干模型可以恢复更多的信息,但我们没有对大于一亿参数标度的主干模型进行任何实验。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值