Encoder-Decoder模型和Attention模型

最新推荐文章于 2024-08-16 11:12:18 发布

mstar1992

最新推荐文章于 2024-08-16 11:12:18 发布

阅读量5k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/u013713117/article/details/56014634

版权

本文介绍了seq2seq模型在机器翻译、问答系统等领域的应用，重点解析了RNN Encoder-Decoder模型及其局限性，以及如何通过Attention模型解决信息丢失问题。Attention模型允许解码器在生成输出时，根据需要动态关注输入序列的特定部分，提高了模型的性能。

摘要由CSDN通过智能技术生成

seq2seq是根据一个输入序列x，来生成另一个输出序列y。seq2seq有很多的应用，例如机器翻译，文档摘取，问答系统以及语音识别等等。在翻译中，输入序列是待翻译的文本，输出序列是翻译后的文本；在问答系统中，输入序列是提出的问题，而输出序列是答案；在语音识别中输入序列是一段语音，输出序列是翻译后的文字。

RNN Encoder-Decoder模型

为了解决seq2seq问题，Cho等人提出了encoder-decoder模型，即编码-解码模型。编码就是将输入序列转化成一个固定长度的向量；解码就是将之前生成的固定向量再转化成输出序列。Cho等人在编码与解码时使用的都是RNN。编码时将输入序列输入到RNN中，生成各个时间的隐藏状态。
$h_t=f(h_{t−1},x_t)$
RNN中当前时间的隐藏状态是由上一时间的状态和当前时间输入决定的。获得了各个时间的隐藏状态后，将隐藏状态的信息汇总，生成最后的语义向量C。
$C=q(h_1,h_2,h_3,…,h_{T_x})$
一种简单的方法是将最后的隐藏层作为语义向量C
$C=q(h_1,h_2,h_3,…,h_{T_x})=h_{T_x}$
解码可以看做编码的逆过程。RNN用编码生成的语义向量C和之前已经生成的输出序列y1,y2,…yt−1来预测下一个输出的单词 yt