《首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型?》笔记

在机器翻译中,语言模型非常关键,目前被认为最好用的是基于长短记忆网络(LSTM)。他与经典的n-gram相比,可以表征大型的文本,以及长距离的依存性

CNN有一个优点,那就是通过共享权重,由局部到整体,实现对输入“whole picture”的建模,而LSTM是通过逐帧递推的方式来建模整体,而递推过程中引入了门机制来进行信息的选择。

贾磊的观点是:

Facebook的这篇论文恰恰是通过在CNN技术中引入LSTM的“门机制”来解决语言顺序依存问题,是对传统cnn技术很大的丰富和完善,文章具有很高的理论价值和实践意义。

模型详情

目前语音建模的主要方法都是基于递归神经网络的,Facebook AI研究院提出了一种卷积的方法来建模,引入了一个新的门机制(gating mechanism),可以释放梯度传播。

这是此类任务中,一个非递归性的方法首次超过了强大的递归模型

结果

模型是基于两个大型的数据集:WikiText-103和谷歌Billion Word(GBW)。并且与LSTM和RNN进行横向对比,结果如下:

测试结果

在单个GPU的情况下,GCNN的性能做到了最好。并且,据Facebook 研究者在论文中介绍,他们使用的 GCNN-13 模型拥有13层神经网络、每层包含1268个单元,而LSTM每层拥有1024个单元。

在多个GPU的情况下,只有超大型LSTM模型在性能上比GCNN好,但是超大型LSTM-2048(代表层数)使用了32个GPU,训练时间为3周,GCNN只使用1个GPU,训练时间1周。

对于一篇完整的文章来说,GCNN模型的性能也比LSTM要好得多。 测试结果

LSTM

LSTM 目前在行业内有着广泛的应用,范围包括但不限于:不分段连续手写识别上、自主语音识别、机器翻译等等。作为非线性模型,LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。在自然语言理解上有着重要作用。

在算法模型的演进过程中,Facebook提供了一种新的思路,现在提取代还为时尚早,还是要看最终的应用效果,毕竟LSTM已经广泛应用。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值