作者:陈宇飞
单位:燕山大学
论文地址:https://www.aclweb.org/anthology/2020.aacl-main.14/
目录
一、研究问题
答案选择(AS)是基于文档的问答系统(DQA)的一个重要子任务。在这个任务中,候选答案来自同一个文档,每个答案句子都与给定的问题语义相关,这使得选择真实答案变得更加困难。
二、解决思路
本文采用的WIkiQA数据集,它的问题来自于必应的用户搜索记录,候选答案出自维基百科中的问题搜索结果,结果往往是一段长文档,数据集中的候选答案则来自文档中的某一句,这就增加了问题的难度,因为候选答案中出自一篇文档,候选答案之间可能会存在一些上下文联系,错误答案与问题之间可能具有相似的语义表示,例如,
Question: what food is in afghan ?
Answer1: A table setting of Afghan food in Kabul.
Answer2:Afghan cuisine is largely based upon the nation’s chief crops; cereals like wheat, maize, barley and rice.
Answer1就是错误的,但是问句答案之间具有相似的语义表示,模型就会很难的做出正确的判断,这就需要给模型注入额外的外部知识,让模型可以判断出Answer2中的wheat, rice这些就是food,使模型具有推理能力。
本文提出一种基于WordNet模型,用synset(同义词)增强语义特征,使用hypernym(上位词)来增加推理知识,帮助区分潜在语义空间中的候选答案。
三、模型设计
模型主要由四部分组成:
3.1 WordNet-Enhanced Word Representation
与普通的word embedding不同,通过WordNet来对原句中的每个词进行多个同义词和上位词的求和取平均,三者拼接后组成新的句子嵌入,以此来增强语义特征。其中 s s s代表同义词, h h h代表上位词, ∣ S ∣ |S| ∣S∣代表同义词个数, ∣ H ∣ |H| ∣H∣代表上位词个数,上位词之间的相关分数 j j j代表原句中第 j j j个单词,下同。
3.2 Sentcene Encoding
本文的编码模型选择了Bi-directionalGated Recurrent Unit (Bi-GRU)模型,分析选择该模型的理由主要是因为Bi-GRU可以捕获到句子中的上下文信息,同时与Bi-LSTM比较来说,可以节省计算成本和时间。
这是一个标准的Bi-GRU模型,最后得到编码后的结果 h j q h_j^q hjq和 h j a i h_j^{a^i} hjai分别代表问题和第i个候选答案中的第j个单词的向量表示。
3.3 WordNet-Enhanced Attention Mechanism
注意机制主要由三部分组成:标准的注意力分数,同位词之间的相关分数,上位词之间的相关分数。
(1)标准的注意力分数,公式如下: