【论文笔记】Reasoning about Entailment with Neural Attention

最新推荐文章于 2021-10-19 16:23:47 发布

mottled233

最新推荐文章于 2021-10-19 16:23:47 发布

阅读量853

点赞数 1

分类专栏： NLP 文章标签：论文 NLP 深度学习推理注意力

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mottled233/article/details/102765841

版权

NLP 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Reasoning about Entailment with Neural Attention

这篇论文主要讲了他们第一次应用深度学习取得了比现阶段人工特征更好的结果（201509），模型架构大体是:LSTM—Attention—FC分类
https://arxiv.org/pdf/1509.06664v1.pdf
在这里插入图片描述

LSTM层

他们使用两个不同的LSTM来分别对Premise和Hypothesis进行向前传播， $LSTM_{hypothesis}$ 的第一个中间状态 $c_0$ 是由 $LSTM_{premise}$ 的最后一个中间状态初始化的。他们的说法是，没有必要重复对Hypothesis进行encode（指将hypothesis句子经过和Premise同一个LSTM的处理称为encode），这样在 $LSTM_{hypothesis}$ 里，会更加关注与premise的语义关联的处理。

attention层

他们提出了两种方法

传统方法：将 $LSTM_{premise}$ 输出拼接为矩阵Y作为输入向量， $LSTM_{hypothesis}$ 的最后一个输出 $h_N$ 作为查询向量，使用加性模型计算attention:
$tanh(W^yY+W^hh_N\bigotimes e_L)$
$\alpha = softmax(w^TM)$
$Y\alpha^T$
其中 $\bigotimes$ 操作是外积，作用等价于 $W^hh_N\in (k×1)$ 与一个 $1 \times L$ 维的纯1向量点乘

最后，通过如下计算得到用于分类的最终输出
$h^* = tanh(W^pr + W^xh_N)$
Word-by-word Attention：他们的想法是只利用最后一个输出hn作为查询会遇到LSTM的对前面输入记忆的瓶颈，于是迭代地对每一个 $LSTM_{hypothesis}$ 的输出都用上面的方法进行注意力计算，并在每次计算中使用了上一次计算的输出（即 $r_{t-1}$ )。最终得到的 $r_{L_h}$ 以同样的方式处理。
$M_t = tanh[W^yY+(W^hh_t+W^rr_{t-1}) \bigotimes e_L]$
$\alpha_t = softmax(w^TM_t)$
$r_t = Y\alpha^T_L + tanh (W^tr_{t-1})$
$h^* = tanh(W^pr_L + W^xh_N)$

另外他们将Premise和Hypothesis换位输入仅模型并将最后输入合并进行分类，称为双向注意力，这个操作没有带来性能的提高，他们分析是因为蕴藏的含义具有非对称的关系，所以使用相同模型再次encode Hypothesis时可能会造成噪声（这点暂时不太理解）。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。