算法面试之seq2seq、attention、beam search

本文介绍了序列到序列(seq2seq)模型的基础概念,包括encoder-decoder结构,以及在编码过程中不同获取语义向量的方法。区别于语言模型,seq2seq模型用于翻译任务,通过将源语言序列编码成固定向量,再解码为目标语言序列。此外,详细阐述了注意力机制在解码过程中的作用,以及束搜索在预测阶段如何选择最佳序列。
摘要由CSDN通过智能技术生成

1.概述

在这里插入图片描述
在这里插入图片描述
seq2seq属于encoder-decoder结构的一种
基本思想就是利用两个RNN,一个RNN作为encoder,另一个RNN作为decoder。
·encoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码。
获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量C。
也可以对最后一个隐含状态做一个变换得到语义向量
还可以将输入序列的所有隐含状态做一个变换得到语义变量。attention

·而decoder则负责根据语义向量生成指定的序列,这个过程也称为解码,最简单的方式是将encoder得到的语义变量作为初始状态输入到decoder的RNN中,得到输出序列。可以看到上一时刻的输出会作为当前时刻的输入,而且其中语义向量C只作为初始状态参与运算,后面的运算都与语义向量C无关。decoder处理方式还有另外一种,就是语义向量C参与了序列所有时刻的运算,上一时刻的输出仍然作为当前时刻的输入,但语义向量C会参与所有时刻的运算。

2.seq-seq的翻译机制和语言模型的区别

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

持续战斗状态

很高兴可以帮到你

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值