Attention mechanism

在这里插入图片描述

1. Attention with RNN

Attention-based encoder-decoder sequence model architecture (A is RNN or LSTM or GRU)

在这里插入图片描述
decoder’s inputs一般用上一时间步预测出的结果。
下一时间步的hidden state s用上一时间步的c,s和这一时间步的new input更新:s_t = func(s_t-1, c_t-1, x’_t)
在这里插入图片描述
在这里插入图片描述
attention参数包含W_Q, W_K, W_V.
在这里插入图片描述
softmax(KTq): 可以衡量k1, k2, …, km分别与qj的相似度/匹配程度,值域[0, 1].

在这里插入图片描述
attention本质是对value进行加权求和。value表示对应word的信息。权重alpha表示信息的重要性,权重越大越attention于对应的value上。

终极总结图:
在这里插入图片描述
我们上面采取的是第一种方式:use dot product to measure similarity
在这里插入图片描述
在这里插入图片描述

2. Self-attention with RNN

下一时间步的hidden state h用上一时间步的c,h和这一时间步的new input更新:h_t = func(h_t-1, c_t-1, x’_t). 也可以只用c和x’: h_t = func(c_t-1, x’_t)

在这里插入图片描述
h0是全零向量,所以c1 = h1

repeat the process until 读完所有input x:
读取x_t, h_t-1, c_t-1,更新h_t
算h_t和所有h_1, …, h_t的align程度, 记作alpha
c = alpha和h对应相乘
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
repeat the process …

在这里插入图片描述

3. Attention without RNN

可用于替代RNN models for seq2seq(many-to-many) tasks e.g. machine translation。
在这里插入图片描述
x:input
x’:also input,but use predicted results during inference
每个x‘都对应一个c

4. Self-attention without RNN

可用于替代RNN for any tasks,不局限于seq2seq。
在这里插入图片描述
两个input sequence都是x
每个x对应一个c

Reference:
[1] https://www.bilibili.com/video/BV1YK4y1x7PC
[2] https://www.bilibili.com/video/BV1Xf4y127fz
[3] https://www.bilibili.com/video/BV12f4y12777
[4] https://www.bilibili.com/video/BV1E54y1B7hk

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值