论文阅读:A Semantic-based Method for Unsupervised Commonsense Question Answering

论文阅读:A Semantic-based Method for Unsupervised Commonsense Question Answering

来源:ACL 2021

下载地址:https://arxiv.org/pdf/2105.14781v1.pdf

本文主要贡献:

  • 提出了一种基于语义的问答模型(SEQA),用于在无监督环境中进行稳健的常识问答。
    本文的方法不是直接对答案选择进行评分,而是首先生成一些可能的答案,然后通过考虑每个可能的答案与每个选择之间的语义相似性来选择正确的选择。
  • 本文对四个常识性问答数据集进行了实验,其中 SEQA 与优秀的 baseline 相比取得了最佳性能。 当受到 TextFooler 的同义词替换攻击时,本文的方法表现得更加稳健。

Abstract

无监督常识问答很有研究价值,因为它不依赖任何标记的任务数据。 在现有工作中,一种流行的解决方案是使用预先训练的语言模型来直接根据问题或上下文对候选选择进行评分。

存在问题:然而,语言模型的这些分数很容易受到不相关因素的影响,例如词频、句子结构等。这些分散注意力的因素不仅可能误导模型选择错误的答案,还会使其对候选答案中的词汇扰动过于敏感。

在本文中,我们提出了一种新颖的基于语义的问答方法(SEQA),用于无监督常识问答。 我们的方法不是直接对每个答案选择进行评分,而是首先使用生成模型(例如 GPT-2)生成一组似是而非的答案,然后通过考虑每个可能的答案和每个选择之间的语义相似性来使用这些可能的答案去选择一个正确的选择。

Introduction

预训练的语言模型已广泛用于常识性问答。 对特定任务数据的预训练模型进行微调会产生许多最先进的结果。但是,这需要大量标记的任务数据。 因此,在不依赖任何标记的下游任务数据的情况下研究无监督的常识性问答是至关重要的。 在本文中,我们研究了无监督环境中的多项选择常识问答任务:给定一个问题和一组答案选择,需要一个模型来预测问题的最合理答案选择,但不使用有标记的任务数据。

许多现有的无监督方法通过使用语言模型对每个答案选择进行评分来解决这些任务,表 1 列出了几个典型的评分函数。然而,这些分数很容易受到词频、句子结构和其他因素的影响,这可能会误导模型并使现有方法对词汇扰动过度敏感。图 1 显示了两个示例。通过同义词替换或结构转换来解释正确的选择。 在这些示例中,基线 (Pro-A) 对释义选择产生的分数要低得多,并选择了错误的选择。
在这里插入图片描述
表 1:三个现有的评分函数和我们的无监督常识问答方法。 Q是问题,A是选择。 A 是所有可能答案的集合,w(S|A) 是等式(5) 中定义的加权函数。 LM 指的是预训练的语言模型,例如 GPT-2 或 BERT。
在这里插入图片描述
图 1:常识问答的两个示例,其中基线 (Pro-A) 对词汇扰动过度敏感(SR 用于同义词替换,ST 用于句子结构转换)。 Pro-A 的分数和我们针对每个答案选择的方法显示在右栏中。 带下划线的分数表示方法选择的答案选择。

由于现有方法很容易被词汇扰动等无关因素分散注意力,因此我们认为常识性问答方法应该关注答案的语义,并为同义选择分配相似的分数。为此,我们引入了一种新颖的基于语义的问答模型 SEQA,该模型旨在在无监督环境中稳健地选择多选常识问答中的正确答案。 我们不是直接对答案选择进行评分,而是计算观察选择语义的概率。选择的语义分数可以通过将与选择具有相同语义含义的句子的生成概率相加来获得,其中句子被称为选择的支持者。 然而,很难获得与选择具有完全相同语义的支持者,因此我们将语义分数重新制定为软版本,如后文所示。每个支持者都通过与答案选择的语义相似性来衡量,可以使用一些现成的模型来计算,例如 SentenceBERT。 由于支持者及其权重取决于语义而不是答案选择的表面形式,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值