算法面试之seq2seq、attention、beam search

持续战斗状态

已于 2022-05-09 17:56:03 修改

阅读量1.8k

点赞数

分类专栏：算法面试NLP必备知识文章标签：自然语言处理 nlp

于 2022-03-24 00:58:28 首次发布

本文链接：https://blog.csdn.net/weixin_43499457/article/details/123700765

版权

本文介绍了序列到序列(seq2seq)模型的基础概念，包括encoder-decoder结构，以及在编码过程中不同获取语义向量的方法。区别于语言模型，seq2seq模型用于翻译任务，通过将源语言序列编码成固定向量，再解码为目标语言序列。此外，详细阐述了注意力机制在解码过程中的作用，以及束搜索在预测阶段如何选择最佳序列。

摘要由CSDN通过智能技术生成

1.概述

在这里插入图片描述

seq2seq属于encoder-decoder结构的一种
基本思想就是利用两个RNN，一个RNN作为encoder，另一个RNN作为decoder。
·encoder负责将输入序列压缩成指定长度的向量，这个向量就可以看成是这个序列的语义，这个过程称为编码。
获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量C。
也可以对最后一个隐含状态做一个变换得到语义向量
还可以将输入序列的所有隐含状态做一个变换得到语义变量。attention

·而decoder则负责根据语义向量生成指定的序列，这个过程也称为解码，最简单的方式是将encoder得到的语义变量作为初始状态输入到decoder的RNN中，得到输出序列。可以看到上一时刻的输出会作为当前时刻的输入，而且其中语义向量C只作为初始状态参与运算，后面的运算都与语义向量C无关。decoder处理方式还有另外一种，就是语义向量C参与了序列所有时刻的运算，上一时刻的输出仍然作为当前时刻的输入，但语义向量C会参与所有时刻的运算。

2.seq-seq的翻译机制和语言模型的区别

最低0.47元/天解锁文章

持续战斗状态

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
算法面试之seq2seq、attention、beam search

1.概述seq2seq属于encoder-decoder结构的一种基本思想就是利用两个RNN，一个RNN作为encoder，另一个RNN作为decoder。·encoder负责将输入序列压缩成指定长度的向量，这个向量就可以看成是这个序列的语义，这个过程称为编码。获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量C。也可以对最后一个隐含状态做一个变换得到语义向量还可以将输入序列的所有隐含状态做一个变换得到语义变量。attention·而decoder则负责根据语义向量生成指定
复制链接

扫一扫