常识推理最近在自然语言处理研究中引起了广泛关注,现有的常识推理方法一般分为两种:一种是在开源数据集上对大型语言模型进行微调 [1],另一种是借助外部知识图谱来训练。然而,构建有标注的常识推理数据集既昂贵,又受限于特定领域,所以尝试无监督常识推理(UCR)至关重要。
本文中,作者专注于无监督多项选择题 QA 任务,也即给定一个问题和一组答案选项,使模型需要预测最可能的选项。作者提出了一种名为 BUCA 的无监督常识 QA 二分类框架,首先使用手动编写的模板将知识图谱三元组转化为文本形式,并生成正面和负面的问题-答案对,然后对预训练好的语言模型进行微调,并在微调过程中加入对比学习来提升模型识别不合理答案的能力,最终选择最高合理性分数的答案作为预测答案。
大量的实验结果表明,BUCA 框架在多个 QA benchmark 上都取得了令人满意的性能,并且相较于现有 UCR 方法,本文的框架对数据的要求更少,展现了 BUCA 框架的有效性。了作者的方法在各种多项选择题回答基准上的有效性。
论文标题:
BUCA: A Binary Classification Approach to Unsupervised Commonsense Question Answering
论文链接:
https://arxiv.org/abs/2305.15932
代码链接:
https://github.com/probe2/BUCA
Method
作者专注于多项选择题 QA 任务:给定一个问题 和一组选项 ,模型应选择最有可能的单个答案 。特别地,本文考虑无监督情境下的 QA 任务,也即默认模型无法访问训练或验证数据。
本文分为如下三个部分介绍 BUCA 框架:三元组转化为二分类问题;训练损失设计以及下游任务推理。
1.1 三元组转化
一般地,一个知识图谱可以表示为三元组 ,其中 是一组实体, 是一组关系类型, 是一个三元组集合 ,其中 分别为头实体和尾实体 , 则是连接 的关系。
受到之前的研究启发 [2],每个知识图谱三元组都可以通过预定义的模板转化为 Q-A 对,这些 Q-A 对可以被用作分类任务的输入,例如:
(PersonX thanks PersonY afterwards, isAfter, PersonX asked PersonY for help on her