1. 论文研读笔记
1.1 研究动机
本文是刘知远老师组在ACL2018的一篇长文,同样是面向开放域的问答,其实从方法学的角度看,和上一篇陈丹琦的文章DrQA有类似的思路,基本基于两个阶段,即段落检索和段落阅读。本文的一个侧重点是,在DS-QA系统中无法存在有问题信息或实体但内容和问题关系不大的噪声段落情况下,引入一个基于和问题相关度的权重,从而实现去噪。
1.2 研究方法
本文的架构整体如下图所示:
段落选择部分,实际上讨论和上一篇文章非常类似,先把段落进行编码,再把问题进行编码,给问题一个self-attention的权重。然后,则通过softmax来选择,即给出段落和问题相关的权重的概率分布,表达式如下:
P
r
(
p
i
∣
q
;
P
)
=
s
o
f
t
m
a
x
(
m
a
x
j
(
p
^
i
j
)
W
q
)
P_r(p_i|q; P) = softmax(max_j(\hat{p}_i^j)Wq)
Pr(pi∣q;P)=softmax(maxj(p^ij)Wq)
阅读理解部分,同样是延用Dr-QA的思路,即预测答案在段落中的span,即起始位置s和终止位置e
这里,对于阅读理解,给出的loss function如下:
L
(
θ
)
=
∑
(
a
,
q
,
P
)
∈
T
l
o
g
P
r
(
a
∣
q
,
P
)
−
α
R
(
p
)
L(\theta)=\sum_{(a,q,P) \in T} logPr(a|q,P) - \alpha R(p)
L(θ)=(a,q,P)∈T∑logPr(a∣q,P)−αR(p)
1.3 实验结果
这篇文章的实验还是比较扎实细致的,从结果上看,在当时也确实是达到了STOA:
我比较欣赏的是作者在实验部分,比较了系统和传统的IR在EM和F1,特别是需要检索多少段落可以得到答案,这部分非常的有意义。我把主要结果也贴出来。
1.4 个人点评
这篇文章从设计的角度来看,我决定其实并没有在陈丹琦的那篇基础上有太大的突破,依然是先检索再阅读理解,对段落和问题用bi-lstm编码,预测答案在段落中的span。文章的做法其实是将他们在关系抽取bag-level上的做法迁移过来,就是充分利用检索的段落,但是给予不同的权重。 作者的实验其实做的比较扎实细致,但是我其实是有点疑惑的,为什么这篇文章没有和陈丹琦的DrQA作对比,没记错的话,正好是一年前的STOA。而且没有使用SQuad 这个数据集。从后来看,证明模型在问答方面的能力,比如elmo,bert,xlnet都会测试这个数据集。