Attention机制学习笔记

最新推荐文章于 2020-06-13 12:41:02 发布

Turned_MZ

最新推荐文章于 2020-06-13 12:41:02 发布

阅读量735

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mingzheng114/article/details/80946912

版权

今日阅读了两篇attention机制的论文，两篇论文思想类似，但实现原理和方法不同，在此小记，以便后用。部分内容为本人个人理解，如果错误，欢迎指正，如果侵权，请联系删除。谢谢! 转载请标明出处，谢谢

思想

Attention机制的思想其实很简单，其寻常的RNN中，对于某一个位置的预测，需参考整个句子之前全部的信息，然而，对于过长的句子，容易丢失一些信息，即使是LSTM，虽然可以在一定程度上解决这个问题，但是对于更长的句子，便力有不足，所以attention机制的思想是，在预测某个位置时，只考虑句子中的部分内容，而不是全部的信息。

全局的attention机制

原理

RNN：

Encoder：

X—转化为—>C，

x为输入input，输入的是词向量的序列，

c is a vector generated from the sequence of thehidden states：

，ht是hidden state，

Decoder：

g是非线性函数，St是RNN的hidden state，c 是context vector

RNNsearch

下面详细介绍一下这个论文中的原理，

Encoder：

使用的是BiRNN（可以用LSTM）：

Forward：

Backward：

Hidden state：

这里的hj叫做annotation，对于i位置的X来说Xi来说，它包含了前向的信息和反向的信息，随着训练，the annotation hj will be focused on the words around Xj，然后，annotation的一个序列，也就是hj，被decoder和aligment model用来得到context vector

Decoder：

这里的Ci是根据encoder的hj计算得到的：

Ci（我们也可以认为这个Ci是expected annotation）是hj的加权和，权重的计算方式如下：

具体的实现

输入:

输出：

Encoder：

前向：

反向：类似上面

然后：

Decoder：

窗口的Attention机制

它分为两种，global和local，这里提到global主要是为了和local作为比较，global其实和不使用attention机制没有什么区别（因为他们都把全部的信息考虑进去了）

Global

其过程如下图：

Local

Hard and softattention的一种平衡的实现

Hard and softattention：

下面来说一下local 的实现：

对于each target wordat time t 产生一个aligned position Pt，

Ct = [Pt-D，Pt+D]，D是一个窗口的大小，凭借经验设置的。

Local-m：

Local-p：

其实现过程如下图：

Input-feeding Approach

其实现原理如下图：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Attention机制学习笔记

今日阅读了两篇attention机制的论文，两篇论文思想类似，但实现原理和方法不同，在此小记，以便后用。部分内容为本人个人理解，如果错误，欢迎指正，如果侵权，请联系删除。谢谢!思想 Attention机制的思想其实很简单，其寻常的RNN中，对于某一个位置的预测，需参考整个句子之前全部的信息，然而，对于过长的句子，容易丢失一些信息，即使是LSTM，虽然可以在一定程度上解决这个问题，但是对...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。