本文是LLM系列文章,针对《LANGUAGE MODEL INVERSION》的翻译。
摘要
语言模型在下一个token上产生分布;我们可以使用它来恢复提示token吗?我们考虑了语言模型反转的问题,并表明下一个标记概率包含了关于前一文本的惊人数量的信息。通常,在文本对用户隐藏的情况下,我们可以恢复文本,从而激发了一种仅在给定模型当前分布输出的情况下恢复未知提示的方法。我们考虑了各种模型访问场景,并展示了即使没有对词汇表中的每个token进行预测,我们也可以通过搜索来恢复概率向量。在Llama-2 7b上,我们的反转方法重建BLEU为59、token级别F1为78的提示,并准确恢复27%的提示。
1 引言
2 相关工作
3 提示构建
4 方法:学习反转概率
5 通过API提取logits
6 实验设置
7 结果
8 结论和未来工作
我们从语言模型输出定义了反转问题,并从攻击和防御的角度分析了反转方法。我们表明,即使我们不能直接访问模型输出分布,这个攻击向量也可以用于从LM系统引出隐藏提示。
反转的极限是什么?我们的实验表明,许多关于输入的信息可以从语言模型概率中恢复,但不能估计上限。附录G.1中的标度分析表明,较大的主干模型可以恢复更多的信息,但我们没有对大于一亿参数标度的主干模型进行任何实验。