《首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型？》笔记

最新推荐文章于 2023-12-01 15:58:51 发布

马春杰杰

最新推荐文章于 2023-12-01 15:58:51 发布

阅读量1.1k

点赞数

分类专栏：深度学习瓦力工作室之深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ma3252788/article/details/73330564

版权

深度学习同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

瓦力工作室之深度学习

9 篇文章 1 订阅

订阅专栏

在机器翻译中，语言模型非常关键，目前被认为最好用的是基于长短记忆网络（LSTM）。他与经典的n-gram相比，可以表征大型的文本，以及长距离的依存性。

CNN有一个优点，那就是通过共享权重，由局部到整体，实现对输入“whole picture”的建模，而LSTM是通过逐帧递推的方式来建模整体，而递推过程中引入了门机制来进行信息的选择。

贾磊的观点是：

Facebook的这篇论文恰恰是通过在CNN技术中引入LSTM的“门机制”来解决语言顺序依存问题，是对传统cnn技术很大的丰富和完善，文章具有很高的理论价值和实践意义。

模型详情

目前语音建模的主要方法都是基于递归神经网络的，Facebook AI研究院提出了一种卷积的方法来建模，引入了一个新的门机制（gating mechanism），可以释放梯度传播。

这是此类任务中，一个非递归性的方法首次超过了强大的递归模型。

结果

模型是基于两个大型的数据集：WikiText-103和谷歌Billion Word（GBW）。并且与LSTM和RNN进行横向对比，结果如下：

测试结果

在单个GPU的情况下，GCNN的性能做到了最好。并且，据Facebook 研究者在论文中介绍，他们使用的 GCNN-13 模型拥有13层神经网络、每层包含1268个单元，而LSTM每层拥有1024个单元。

在多个GPU的情况下，只有超大型LSTM模型在性能上比GCNN好，但是超大型LSTM-2048（代表层数）使用了32个GPU，训练时间为3周，GCNN只使用1个GPU，训练时间1周。

对于一篇完整的文章来说，GCNN模型的性能也比LSTM要好得多。测试结果

LSTM

LSTM 目前在行业内有着广泛的应用，范围包括但不限于：不分段连续手写识别上、自主语音识别、机器翻译等等。作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。在自然语言理解上有着重要作用。

在算法模型的演进过程中，Facebook提供了一种新的思路，现在提取代还为时尚早，还是要看最终的应用效果，毕竟LSTM已经广泛应用。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型？》笔记

在机器翻译中，语言模型非常关键，目前被认为最好用的是基于长短记忆网络（LSTM）。他与经典的n-gram相比，可以表征大型的文本，以及长距离的依存性。CNN有一个优点，那就是通过共享权重，由局部到整体，实现对输入“whole picture”的建模，而LSTM是通过逐帧递推的方式来建模整体，而递推过程中引入了门机制来进行信息的选择。贾磊的观点是：Facebook的这篇论
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。