阅读理解BI-DAF《BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION》笔记

28 篇文章 2 订阅
26 篇文章 1 订阅

《BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION》

Introduction

这篇论文也是比较经典的一篇,时间相对早期,发在2017ICLR。和另一篇论文《Machine Comprehension Using Match-LSTM and Answer Pointer》同期发表在该期刊上。

BiDAF用了层级的结构来表示不同粒度的表达(现在看起来该层级结构很简单),使用了双向Attention流,并且没有过早的压缩向量,损失信息(即对hidden state做加权求和)。

这里主要对文章不理解的地方做几点解释:

1、dynamic attention:解码一个词算一个attention,即传统NMT中的attention解码过程。

e t j = f ( h j , s t − 1 ) e_{tj} = f(h_j, s_{t-1}) etj=f(hj,st1) s t = f ( s t − 1 , c t , y t − 1 ) s_t = f(s_{t-1}, c_t, y_{t-1}) st=f(st1,ct,yt1) c t + 1 c_{t+1} ct+1依赖于 s t s_t st s t s_t st又依赖 c t c_t ct,那么 c t + 1 c_{t+1} ct+1依赖于 c t c_t ct

而这篇文章是passage对question一次性做完attention,并不依赖于解码出前一个时刻然后在进行。

2、memory-less attention:即上,passage对question一次性做完attention,并不依赖于解码出前一个时刻然后在进行。
文章说这个的好处是使得attention不会受到之前的错误累计的影响。

还说到“leads to the division of labor between the attention layer and the modeling layer. ”不太理解。

问题是,之后的R-net提出的attention的计算方式就是在解码 s t s_t st 的时候考虑了 c t − 1 c_{t-1} ct1。效果还比较好。

3、summarize the context paragraph into a fixed-size vector:即对hidden state做加权求和,这篇文章并没有对passage压缩(但是C2Q对question压缩了)成一个向量。(即使Q2C矩阵对passage进行了压缩,可是又平铺了len(passage),得到 H ′ H' H

Model

在这里插入图片描述在这里插入图片描述
模型可以对照着看,还是比较好理解的。最后的表示由三个部分的来源,Encoder的上下文表示,Decoder的前文表示以及passage本身的表示。然后concatenate过LSTM+指针网络输出起止位置。

Experiment

在这里插入图片描述

Question

1、memory-less attention——“leads to the division of labor between the attention layer and the modeling layer. ”
不太理解。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

彭伟_02

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值