Sequence to Sequence Learning with Neural Networks论文解读

最新推荐文章于 2025-03-19 16:35:38 发布

卷心菜不想卷

最新推荐文章于 2025-03-19 16:35:38 发布

阅读量745

点赞数 15

文章标签：深度学习人工智能论文阅读

本文链接：https://blog.csdn.net/m0_52775136/article/details/141822671

版权

基本信息

作者	I Sutskever	doi
发表时间	2014	期刊	NIPS
网址	https://arxiv.org/pdf/1409.3215v3

研究背景

1. What’s known 既往研究已证实
深度神经网络（DNNs）是极其强大的机器学习模型，在诸如语音识别和视觉对象识别等难题上表现出卓越的性能。

2. What’s new 创新点
加入了LSTM，创造了一个encoder-decoder结构。
端到端的序列到序列学习框架。

3. What’s are the implications 意义
传统的统计机器翻译（SMT）方法倾向于逐字翻译，且难以处理长句子的依赖关系。
提高了翻译效率和速度，翻译质量超过了传统的基于短语的统计机器翻译系统。

研究方法

1. encoder-decoder结构
使用两个LSTM网络，一个放到encoder里将输入序列映射为固定维度的向量表示，另一个放decoder里从该向量中解码出目标序列。（使用了具有4层的深度LSTM，每层有1000个单元和1000维的词嵌入，输入词汇量为160,000，输出词汇量为80,000）实现端到端的序列学习。
在这里插入图片描述
解码和重排：

LSTM里的遗忘门可以减少数据量，提高速度。