10-编码器-解码器架构

编码器-解码器 

        机器翻译中,输入和输出的序列都是可变的。处理这种类型的输入输出,采取编码器-解码器的架构。编码器将输入的可变序列转化为定长的序列,再有解码器转变为可变的序列。该架构如下图所示: 

seq2seq

        使用两个循环神经网络来作为编码器和解码器,应用于seq2seq模型。为了连续生成输出序列的词元, 独立的循环神经网络解码器是基于输入序列的编码信息和输出序列已经看见的或者生成的词元来预测下一个词元。具体结果如下图所示:

        其中特定的“<eos>”表示序列结束词元,一旦输出序列生成此词元,模型就会停止预测。特定的“<bos>”表示序列开始词元,它是解码器的输入序列的第一个词元。解码器的初始隐状态是编码器的最终的隐状态,并且编码器最终的隐状态在每一个时间步都作为解码器的输入序列的一部分。

束搜索 

        束搜索是介于贪心搜索和穷举法之间的方法,贪心搜索是在每时刻都选择当前概率最大的预测值,穷举是将所有可能的序列都进行查看,最后选择一个概率最大的预测值。束搜索只在第一个时间步,选择K个最大的预测值,之后的时间步里同贪心搜索一样选择概率最大的预测序列,最后将得到的预测序列进行比较,选择其中概率最大的。如下图所示:

        设束宽位2,输出长度为2,候选输出序列有A、C、AB、CE、ABD、CED。最后,基于这六个序列(例如,丢弃包括“<eos>”和之后的部分),获得最终候选输出序列集合。 然后选择其中条件概率乘积最高的序列作为输出序列: 

 \frac{1}{L^\alpha} \log P(y_1, \ldots, y_{L}\mid \mathbf{c}) = \frac{1}{L^\alpha} \sum_{t'=1}^L \log P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \mathbf{c}),

        其中L是最终候选序列的长度, α通常设置为0.75。 因为一个较长的序列在上式的求和中会有更多的对数项, 因此分母中的L^\alpha用于惩罚长序列。贪心搜索可以看作是一种束宽为1的特殊类型的束搜索。通过灵活地选择束宽,束搜索可以在正确率和计算代价之间进行权衡。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值