《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》阅读笔记

最新推荐文章于 2019-03-08 16:43:07 发布

对酒当鸽

最新推荐文章于 2019-03-08 16:43:07 发布

阅读量4.7k

点赞数 3

本文链接：https://blog.csdn.net/qq_33415086/article/details/80202628

版权

这篇论文提出了Attention机制对于Encoder-Decoder进行改进。在Encoder-Decoder结构中，Encoder将输入序列编码为 $h_{n}$ 。这样做的一个潜在问题是，如果原始序列中包含的许多信息，而 $h_{n}$ 的长度又是一定的，那么 $h_{n}$ 就存不下我们所需的所有信息。
利用Attention机制，Decoder可以在输入序列中选取需要的特征，提高了Encoder-Decoder模型的性能。

首先，让我们先来回顾下LSTM的机制。LSTM的结构图如下图所示：
LSTM
* 红色表示输入
* 蓝色表示输出
* 绿色表示记忆单元
* 虚线表示前一时刻的变量

每个组件的具体表达式如下：

意义	表达式
数据输入	$z = g([x_{t}, y_{t - 1}])$
输入门	$i = \sigma[x_{t}, y_{t - 1}, c_{t - 1}]$
遗忘门	$g = \sigma[x_{t}, y_{t - 1}, c_{t - 1}]$
输出门

最低0.47元/天解锁文章

对酒当鸽

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》阅读笔记

这篇论文提出了Attention机制对于Encoder-Decoder进行改进。在Encoder-Decoder结构中，Encoder将输入序列编码为hnhnh_{n}。这样做的一个潜在问题是，如果原始序列中包含的许多信息，而hnhnh_{n} 的长度又是一定的，那么hnhnh_{n} 就存不下我们所需的所有信息。利用Attention机制，Decoder可以在输入序列中选取需要的特征，提高了...
复制链接

扫一扫