论文阅读笔记（一）《Sequence to Sequence Learning with Neural Networks》

爱笑的眼睛Huij

已于 2022-03-18 20:04:17 修改

阅读量700

点赞数 1

分类专栏：论文阅读笔记文章标签：深度学习神经网络长短时记忆网络

于 2022-03-18 20:03:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/happypipi123/article/details/123582452

版权

论文阅读笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文下载链接：https://arxiv.org/pdf/1409.3215.pdf

创新点：

针对神经网络（DNN）不能用于将序列映射到序列的问题，提出一种通用的端到端序列学习方法。

论文内容：

DNN：语音识别、视觉对象识别
优势：可以执行任意并行计算的适当数目的步骤。
局限性：只能应用于输入和目标能够合理编码固定维向量的问题。

长短期记忆神经网络（LSTM）：将可变长度的输入句子映射成一个固定维度的向量。

传统的序列-序列模型：
当输入和输出对齐时，输入序列通过一个循环神经网络（RNN）被压缩成一个固定向量，再经过一个循环神经网络，将这个固定向量再转化成序列输出。
本文的模型与传统的模型有三点不同：
1、输入序列通过一个LSTM压缩成一个fixed-dimensional向量，然后再经过一个LSTM转化成序列进行输出。（可以在忽略不计的计算成本下增加数量模型参数，并使同时在多语言对上训练LSTM变得自然）
2、本文发现深层的长短期记忆神经网络效果好过浅层的LSTM，所以本文选择了4层的LSTM。
3、颠倒输入句子的单词顺序会使该模型效果更好。
数据验证：
在WMT’ 14数据集的英语到法语翻译任务中，LSTM生成的翻译在整个测试集中获得了34.8分的BLEU分数，而LSTM的BLEU分数在词汇外的单词上被扣分。此外，LSTM在长句子上也没有困难。相比之下，基于短语的SMT系统在同一数据集上的BLEU得分为33.3。当我们使用LSTM对上述SMT系统产生的1000个假设进行重新排序时，其BLEU得分增加到36.5，接近之前该任务的最佳结果。
LSTM还学习了对词序敏感、对主动语态和被动语态相对不变的合理短语和句子表征。针对源句颠倒、目标句没有颠倒的情况，LSTM的效果更好。

数据验证：

总结：

作为一个简单、直接、相对未优化的模型，LSTM明显优于SMT系统。

爱笑的眼睛Huij

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记（一）《Sequence to Sequence Learning with Neural Networks》

论文下载链接：https://arxiv.org/pdf/1409.3215.pdf创新点：针对神经网络（DNN）不能用于将序列映射到序列的问题，提出一种通用的端到端序列学习方法。论文内容：DNN：语音识别、视觉对象识别优势：可以执行任意并行计算的适当数目的步骤。局限性：只能应用于输入和目标能够合理编码固定维向量的问题。长短期记忆神经网络（LSTM）：将可变长度的输入句子映射成一个固定维度的向量。传统的序列-序列模型：当输入和输出对齐时，输入序列通过一个循环神经网络（RNN）被压缩成一个固
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。