本文是LLM相关的系列文章,针对《Editing Large Language Models: Problems, Methods, and Opportunities》的翻译。
编辑大语言模型:问题、方法和机遇
摘要
深度学习的最新进展促成了大型语言模型(LLM)的出现,这些模型在理解和生成类似于人类语言的文本方面表现出了令人印象深刻的天赋。尽管有能力训练能力很强的LLM,但保持其相关性和纠正错误的方法仍然难以捉摸。为此,在过去几年中,LLM编辑技术激增,其目标是在不影响其他输入性能的情况下,改变特定领域内LLM的行为。本文对LLM模型编辑的相关问题、方法和机遇进行了深入探讨。特别是,我们对任务定义和与模型编辑相关的挑战进行了详尽的概述,并对我们目前掌握的最先进的方法进行了深入的实证分析。我们还构建了一个新的基准数据集,以促进更稳健的评估,并找出现有技术固有的持久问题。我们的目标是为每种模型编辑技术的有效性和可行性提供有价值的见解,从而帮助研究界在为特定任务或背景选择最合适的方法时做出明智的决定。
1 引言
大型语言模型(llm)在理解和生成类人文本方面表现出了非凡的能力。尽管对LLM的训练很熟练,但确保其相关性和修复其错误的策略仍然不清楚。理想情况下,随着世界状态的发展,我们的目标是以一种避免与训练全新模型相关的计算负担的方式更新LLM。为了满足这一需求,如图1所示,