对话系统(四)Denoising Distantly Supervised Open-Domain Question Answering

1. 论文研读笔记

1.1 研究动机

本文是刘知远老师组在ACL2018的一篇长文,同样是面向开放域的问答,其实从方法学的角度看,和上一篇陈丹琦的文章DrQA有类似的思路,基本基于两个阶段,即段落检索和段落阅读。本文的一个侧重点是,在DS-QA系统中无法存在有问题信息或实体但内容和问题关系不大的噪声段落情况下,引入一个基于和问题相关度的权重,从而实现去噪。

1.2 研究方法

本文的架构整体如下图所示:
DS-QA
段落选择部分,实际上讨论和上一篇文章非常类似,先把段落进行编码,再把问题进行编码,给问题一个self-attention的权重。然后,则通过softmax来选择,即给出段落和问题相关的权重的概率分布,表达式如下:
P r ( p i ∣ q ; P ) = s o f t m a x ( m a x j ( p ^ i j ) W q ) P_r(p_i|q; P) = softmax(max_j(\hat{p}_i^j)Wq) Pr(piq;P)=softmax(maxj(p^ij)Wq)

阅读理解部分,同样是延用Dr-QA的思路,即预测答案在段落中的span,即起始位置s和终止位置e
这里,对于阅读理解,给出的loss function如下:
L ( θ ) = ∑ ( a , q , P ) ∈ T l o g P r ( a ∣ q , P ) − α R ( p ) L(\theta)=\sum_{(a,q,P) \in T} logPr(a|q,P) - \alpha R(p) L(θ)=(a,q,P)TlogPr(aq,P)αR(p)

1.3 实验结果

这篇文章的实验还是比较扎实细致的,从结果上看,在当时也确实是达到了STOA:
results_overview
我比较欣赏的是作者在实验部分,比较了系统和传统的IR在EM和F1,特别是需要检索多少段落可以得到答案,这部分非常的有意义。我把主要结果也贴出来。

IR_F1
IR_numofP

1.4 个人点评

这篇文章从设计的角度来看,我决定其实并没有在陈丹琦的那篇基础上有太大的突破,依然是先检索再阅读理解,对段落和问题用bi-lstm编码,预测答案在段落中的span。文章的做法其实是将他们在关系抽取bag-level上的做法迁移过来,就是充分利用检索的段落,但是给予不同的权重。 作者的实验其实做的比较扎实细致,但是我其实是有点疑惑的,为什么这篇文章没有和陈丹琦的DrQA作对比,没记错的话,正好是一年前的STOA。而且没有使用SQuad 这个数据集。从后来看,证明模型在问答方面的能力,比如elmo,bert,xlnet都会测试这个数据集。

2. 模型调试心得

2.1 模型地址

2.2 模型运行环境

2.3 数据集选择与下载

2.4 模型运行步骤

2.5 问题与解决方法汇总

2.6 个人点评

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值