本文是LLM系列文章,针对《Scaling Behavior of Machine Translation with Large Language Models under Prompt Injection Attacks》的翻译。
摘要
大型语言模型(LLM)正日益成为许多自然语言处理任务(如机器翻译)的首选基础平台,因为它们的质量通常与特定任务模型相当或更好,并且通过自然语言指令或上下文示例来指定任务很简单。然而,它们的通用性使它们容易被最终用户颠覆,最终用户可能会在其请求中嵌入指令,导致模型以未经授权且可能不安全的方式运行。在这项工作中,我们研究了在机器翻译任务中对多个LLM家族的提示注入攻击(PIA),重点是模型大小对攻击成功率的影响。我们引入了一个新的基准数据集,我们发现在多个语言对和用英语编写的注入提示上,在某些条件下,更大的模型可能更容易受到成功攻击,这是逆缩放现象的一个例子。据我们所知,这是第一项研究多语言环境中非平凡LLM缩放行为的工作。