地址:https://arxiv.org/abs/2110.08387
尽管大型语言模型能够在预训练期间捕获大量知识,但它们通常受益于整合外部知识库,尤其是在常识推理任务上。
这促使我们探索如何更好地利用从语言模型中获得的知识。作者建议使用通用提示格式直接从语言模型生成知识语句,然后选择使得预测概率最大的知识。
尽管它很简单,但这种方法提高了预训练模型在数字常识、通用常识和科学常识上的性能。值得注意的是,使用模型自己生成的知识,它的预测可以提高,这表明了符号知识表示在神经推理过程中的重要性。
Introduction
进行常识推理需要常识知识,而预训练语言模型隐含了大量的知识,可以直接作为常识推理的推理模型,一方面,整合外部知识库可以提高其中一些任务的性能。
另一方面,语言模型本身可以充当知识库的角色,因为它们允许查询符号知识。为了利用语言模型中包含的知识来回答常识问题,最近的一些工作通过设计cloze-style模板来生成某种类型的知识陈述,例如阐明、对比说明等。
然而,任务通常需要不同类型的知识,这超出了预定义模板的范围(表1)。如何从语言模型中灵活地引出一般类型的有用知识,并将这些知识整合到预测中?
表1:生成知识提示修正预测的例子
每部分绿色表示正确的回答
红色表示错误的回答
每一行的第一句表示问题
第二句表示知识生成模型生成的知识语句
<