从Seq2Seq到transformer

  • Seq2Seq

Seq2Seq模型是输出的长度不确定时采用的模型。

seq2seq属于encoder-decoder结构的一种,这里看看常见的encoder-decoder结构,基本思想就是利用两个RNN,一个RNN作为encoder,另一个RNN作为decoderencoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码。decoder则负责根据语义向量生成指定的序列,这个过程也称为解码。

获取语义向量的一种方式是直接将最后一个输入的隐藏状态作为语义向量C。也可以对最后一个隐含状态做一个变换得到语义向量,还可以将输入序列的所有隐含状态做一个变换得到语义变量。

一种decoder的方式是将encoder得到的语义变量作为初始状态输入到decoderRNN中,得到输出序列,上一时刻的输出会作为当前时刻的输入,而且其中语义向量C只作为初始状态参与运算,后面的运算都与语义向量C无关;另外一种是语义向量C参与了序列所有时刻的运算,上一时刻的输出作为当前时刻的输入,且语义向量C会参与所有时刻的运算。

所以模型的关键在于向量C能否很好的表达encode过程中序列的信息。

 

  • Attention+ Seq2Seq

当输入句子很长的时候,encoder的效果会很差,利用隐状态(context向量)来编码输入句子的语义实际上是很困难的。为了解决这个问题,Bahdanau等人提出了注意力机制(attention mechanism)。于是在Decoder进行t时刻计算的时候,除了t-1时刻的隐状态,当前时刻的输入,注意力机制还可以参考Encoder所有时刻的输入。

 

     

 

其中α01h01对应的权重,对所有权重α0进行softmax后得到α0α0h0加权求和,得到c0

α的计算:αts= score(ht,hs)

α的计算:αts=exp(score(ht,hs))s'=1Sexp(score(ht,hs'))

c

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值