seq2seq详解

最新推荐文章于 2024-07-28 11:52:14 发布

滴水无痕0801

最新推荐文章于 2024-07-28 11:52:14 发布

阅读量2.1k

点赞数 1

分类专栏：深度学习文章标签： seq2seq sequence to sequence 端到端 RNN

本文链接：https://blog.csdn.net/huwenxing0801/article/details/85042057

版权

本文详细介绍了seq2seq模型，它解决RNN输入输出序列长度匹配的问题。seq2seq由Encoder和Decoder组成，适用于机器翻译、文本摘要等任务。文章分别阐述了框架1和框架2，前者语义向量参与每个时刻的Decoder计算，后者则仅用于初始化Decoder隐藏状态。

摘要由CSDN通过智能技术生成

博客已迁至知乎，本文链接：https://zhuanlan.zhihu.com/p/70880679

前言

我们通常使用RNN来对序列到序列问题建模，但是使用RNN建模，输出序列的长度必须和输入序列的长度相等。seq2seq框架很好地解决了这个问题。本文介绍了两种最常见的seq2seq框架。若对RNN不熟悉，请参考我前两篇文章：RNN详解、LSTM详解。

seq2seq介绍：

seq2seq模型，全称Sequence to sequence，由Encoder和Decoder两个部分组成，每部分都是一个RNNCell（RNN、LSTM、GRU等）结构。Encoder将一个序列编码为一个固定长度的语义向量，Decoder将该语义向量解码为另一个序列。

特点：输入序列和输出序列的长度是可变的，输出序列长度可以不等于输入序列长度。
训练：对Encoder和Decoder进行联合训练，使给定输入序列的目标序列的条件概率最大化。
应用：seq2seq模型可以在给定输入序列的情况下生成目标序列，也可以对一对序列进行评分(以条件概率表示)。比如机器翻译、文本摘要生成、对话生成等。