Seq2Seq - Attention(代码私戳)

最新推荐文章于 2022-12-03 08:44:44 发布

牧童在路上

最新推荐文章于 2022-12-03 08:44:44 发布

阅读量164

点赞数

分类专栏： nlp python

本文链接：https://blog.csdn.net/qq_43708647/article/details/111875323

版权

9 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

初级版本

对当前batch生成context vector,以及对应各个时刻的 encoder_output

对于当前attention,以及上一时刻输出的词向量，拼接后放入decoder rnn中，生成下一个隐状态以及当前预测的输出

对于 decoder 的hidden_state, 对于当前batch 各个时刻的encoder output 生成attention，返回（batch_size, seq_len）

因为decoder 需要上一个预测出的数据当作下一个时刻的输入，所以对于每一个时刻单独应用一个 GRU,所以需要进行组织一下

那么这些模型什么关系呢：站在优化的角度讲，肯定是要注册的，对于所有的batch,对于attention中的transformation 并且是对所有的模型并行训练的，所以说所有的模型都是并列的

对于第一个或者第二个问题,解决办法：

packed_embedded = nn.utils.rnn.pack_padded_sequence(embedded, src_len)
outputs, _ = nn.utils.rnn.pad_packed_sequence(packed_outputs)

attention = attention.masked_fill(mask == 0, -1e10)

关注

专栏目录