来源:ACL 2019
链接:https://www.aclweb.org/anthology/P19-1414
MOTIVATION
why-QA模型检索的答案段落通常包含几个句子。这些多句的段落不仅包含了why-QA所寻求的原因及其与why-QA的联系,而且还包含了冗余的和/或不相关的部分。
CONTRIBUTIONS
本文训练了一个神经网络(NN),从一个答案段落中生成一个由why-question提出的非冗余原因的向量表示,并利用生成的向量表示作为判断段落是否是回答why-question的证据。
MODEL
总框架

why-QA Model
why-QA的任务是从文本存档中检索出问题的答案,以前的why-QA方法从文本存档的回答段落中检索,每个段落由几个句子组成。但是由于回答段落中存在了许多冗余信息,现在增加了compact answers(下图中的C),使答案更加简洁不包含冗余信息。

框架如下所示

- 框架中的F是对抗网络中训练出来的生成表征。
- 在计算问题表征时,它接受Passage的影响,计算Passage表征时受Q和F的影响,虚线代表受影响。
- 通过逻辑回归,dropout,softmax output计算Q,F,P表征的概率。最终判断给定的答案是正确还是错误的。
对抗网络
作者使用的对抗网络(AGR)与原始GAN略有不同,AGR有两个生成器F和R,一个判别器D。框架如下所示:

- 作者设计了一个对抗网络AGR,它由生成器和判别器组成,生成器网络被训练用于生成(从答案段落)的生成表示,以使鉴别器网络难以将这些生成表示与手工创建的compact answers的真实表示区分开来。
目标函数:

- F和R使用相同的网络结构encoder
Encoder部分
encoder部分可以被分为三个部分:word embedding,attention,CNN

- word embedding:文章使用两种embedding,①general word embedding使用word2vec产生;②causal word embedding使用之前别人研究的技术产生。最终的Word embedding是二者的连接。
- attention:文章使用两种attention,①similarity-attention用来估计Q中的词与P/C中的词的相似性,采用余弦相似,对于P/C中的每一个词都有一个attention特征向量对应;②causality-attention用来估计Q中的词与P/C中词的因果关系,每两个词之间都有一个表示因果关系强度的值,causality-attention对于P/C中的每一个词都有一个因果关系的attention的特征向量。最终的attention表达式如下所示:

- CNN:最终的P/C的presentation需要经过一个卷积层和平均池化层。
个人理解:我对这篇论文的理解是,作者为了从why-QA的答案段中得到简练的答案(即论文中的Compact answers),使用对抗网络,这个网络的作用是,通过已经标注了简洁答案的数据集中,对抗训练,从而得到一个非常好的生成了的简洁答案,此时保存训练的参数,当再有一批未标准简洁答案的数据集,可以通过这个对抗网络来生成它的简洁答案。对给定问题,通过模型判断此简洁答案是否是给定问题的答案,从而也可以判断出答案段落是否是此答案的相关答案段落。
(小白一只,如有错误,请多指正)

本文提出了一种使用对抗学习方法来处理open-domain why-questions的模型,旨在从答案段落中提取非冗余的原因。通过训练神经网络生成紧凑的答案表示,并用其作为判断段落是否回答why-question的依据。模型包括why-QA模型、对抗网络和带有word embedding、attention和CNN的encoder部分。
1564

被折叠的 条评论
为什么被折叠?



