本文是LLM系列文章,针对《LANGUAGE MODEL INVERSION》的翻译。
摘要
语言模型在下一个token上产生分布;我们可以使用它来恢复提示token吗?我们考虑了语言模型反转的问题,并表明下一个标记概率包含了关于前一文本的惊人数量的信息。通常,在文本对用户隐藏的情况下,我们可以恢复文本,从而激发了一种仅在给定模型当前分布输出的情况下恢复未知提示的方法。我们考虑了各种模型访问场景,并展示了即使没有对词汇表中的每个token进行预测,我们也可以通过搜索来恢复概率向量。在Llama-2 7b上,我们的反转方法重建BLEU为59、token级别F1为78的提示,并准确恢复27%的提示。
1 引言
2 相关工作
3 提示构建
4 方法:学习反转概率
5 通过API提取logits
6 实验设置
7 结果
8 结论和未来工作
我们从语言模型输出定义了反转问题,并从攻击和防御的角度分析了反转方法。我们表明,