Convolutional Sequence to Sequence Learning学习心得

1 为什么使用CNN学习序列表示

  1. 和RNN相比,CNN产生的背景向量固定

并且通过stacking 可以使 contex size 更大,如下图。
在这里插入图片描述

  1. 和RNN相比,CNN产生的背景向量固定

并且通过stacking 可以使 contex size 更大,如上图。

  1. Hierarchy representation

如图1,只需要三次CNN operation ,而需要 7 次 rnn 才能覆盖整个句子;
且RNN对于句首和句尾的非线性是不一致的
在这里插入图片描述

2 为什么引入注意力机制

Cho et al.,2014 解码器中目标序列中的任意一个词只考虑了编码器最终的映状态,即attend to 输入整 个句子,而 注意力机制中 c i c_i ci是输入句子各个时刻hidden state 的加权和,weight 不同表示对当前词的关注程度不一样,故允许网络在生成目标序列的对应词时关注输入句子的不同部分

3 如何利用CNN实现序列学习

引入Multi step Attention ,即每一层使用separate Attention
使用GLU(gated Linear unit )

Gehring, Jonas, Auli, Michael, Grangier, David, and
Dauphin, Yann N. A Convolutional Encoder Model
for Neural Machine Translation. arXiv preprint
arXiv:1611.02344, 2016

具体细节可以参考:

  1. 原文
  2. 从《Convolutional Sequence to Sequence Learning》到《Attention Is All You Need》
  3. 神经网络机器翻译模型介绍-ConvS2S

在这里插入图片描述

值得一读
Bahdanau, Dzmitry, Cho, Kyunghyun, and Bengio,
Yoshua. Neural machine translation by jointly learning
to align and translate. arXiv preprint arXiv:1409.0473,
2014

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值