《Denoising Distantly Supervised Open-Domain Question Answering》浅析

前言:

小编所写博客主要目的是记录之用,不免显得琐碎唠叨,不过分享出来如果能有只言片语帮到大家也是极好的。若您觉得一无所获,请及早退出,若有想法进一步交流,可评论。(原谅我没有时间排版)

论文题目:远距离监督开放问答的降噪。

1.论文提出一种新模,包括一个可以去除噪音文章的选择器,和一个从文中找出正确答案的reader。那么重点就在这个选择器怎么实现。

2.这幅图可以很好地解释这篇文章的创新点:

相比于之前的文章,作者的切入点是:之前确实有文章做过降噪处理,但是他们没有从源头做起,具体来说就是依靠于改进reader来提取正确答案,达到更好的效果。但是作者从源头做起,在第一步得到几篇文章以后,先做一个select,去除那些跟问题实际上没有关系的文章,这样第二步reader的效果就会更好。

3.下面我们关键来看如何去噪(方法):

question q =(q1, q2, · · · , q|q|)

 m paragraphs which are defined as P = {p1, p2, · · · , pm }

where pi = (p1i,p2i,· · · , p|pi |i)

我们的目标就是在给定的文章集合P,和问题q的情况下,答案a的概率。

(1)文章选择器的目标函数: Pr(pi |q, P),在给定P和q的情况下计算每篇文章的概率

(2)reader函数: Pr(a|q, pi),用LSTM实现,根据概率公式

段落编码:

把段落的每一个词都转换成向量,然后扔到某个神经网络中去,比如RNN,然后得到得到他们的隐藏状态,这个隐藏状态中包含了这个词以及周围的词的语法信息(虽然我也不知道为什么这么说)

然后用类似的方法编码问题,其中用到了attention,不过不难,只是增加了权重信息而已。大概如下:

最后只需要这个公式就可以得到我们之前提到的目标函数:

之后的具体细节小编先留着,等有必要再继续研读。

总之,本文的核心思想就是加入了select这个步骤。

未完待续···

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值