Seq2seq模型以及Attention机制

最新推荐文章于 2024-08-12 01:32:42 发布

进步中的coder

最新推荐文章于 2024-08-12 01:32:42 发布

阅读量794

点赞数

分类专栏：笔记文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_42254244/article/details/117261617

版权

本文深入探讨Seq2seq模型，包括Encoder和Decoder结构，以及如何利用RNN/LSTM实现。重点讲解了Attention机制在序列生成过程中的作用，通过机器翻译示例解释其工作原理，最后提到了Beam Search策略在解决Decoder生成问题上的应用。

摘要由CSDN通过智能技术生成

Seq2seq模型

本文将对基于RNN/LSTM的传统的Seq2seq模型做一个介绍。Seq2Seq模型一般都有Encoder和Decoder两个结构，由Encoder来处理input sequence然后生成一个句子的embedding vector交给Decoder来决定要什么样的output sequence。这种模型可以用RNN/LSTM来实现。

1.回顾RNN

我们知道无论时间序列有多长，结构中每一个时刻对应的W_hh, W_xh, W_hy是参数共享的，RNN中每一个时间部的输出都可以用以下的形式来表示(根据不同的任务g可以取不同的激活函数):
h^(t) = g(W_hh·h^(t-1) + W_xh·x^(t))
y^(t) = g(W_hy·h^(t))
在这里插入图片描述
一般的DNN是指沿纵向一层一层堆叠的神经网络，而RNN是沿时间维度横向堆叠的特殊的神经网络，当然RNN也可以是Deep的，同一层不同时部的参数是共享的，不同层的参数是不同的，像下图所示：

有人说一般的RNN每一个时间部的输出只考虑了前面时间部的信息，而没考虑后面的，所以就有了双向的即bidirectional RNN，如下图所示：
在这里插入图片描述
LSTM的结构与RNN类似这里不过过多介绍，都可以用来实现Seq2seq模型，下文中的结构部可以当作是RNN/LSTM都可以，道理相同。