seq2seq与引入注意力机制的seq2seq

nor1take

已于 2023-09-02 20:53:06 修改

阅读量557

点赞数

分类专栏： NLP 文章标签： seq2seq 注意力机制

于 2023-09-01 23:13:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60641871/article/details/132631944

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、什么是 seq2seq？

就是字面意思，“句子到句子”。比如翻译。

2、seq2seq 有一些特点

seq2seq 的整体架构是 “编码器-解码器”。

其中，编码器是 RNN，并将 最后一个hidden state（隐藏状态）【即：包含了整个句子的所有特征】作为编码器的输入；解码器使用另一个 RNN 去输出。

编码器-解码器：
输入 → Encoder → 中间状态 → Decoder（← 新输入） → 输出
与一般的模型不同的是，在 Decoder 可能会接受新的输入。
编码器相当于在“提取特征”。解码器相当于“从特征（中间态）还原出输出”

3、训练和预测

稍微看一下，便于更好的掌握seq2seq的工作原理。重点是注意力机制。

3.1 训练

训练的时候，因为知道翻译结果，所以直接使用正确的翻译作为输入（解码器底下一行）。所以即使预测错误（解码器上面那行）也不会影响到输入。
在这里插入图片描述

3.2 预测

可以看到，与“训练”不同的是：解码器的输入使用的是上一次预测的结果。
在这里插入图片描述

4、引入注意力机制的 seq2seq

4.1 为什么 seq2seq 要引入注意力机制？

因为在翻译中，比如：我们要翻译 “你好世界” 成 “hello world” ，那么在翻译 “hello” 的时候，应该 针对性地去看 “你好” 相关的信息，而不是 把 “你好世界” 所有的信息作为输入去处理。

其中，针对性地去看 “你好” 相关的信息 就是注意力机制；
把 “你好世界” 所有的信息作为输入去处理 就是seq2seq原本干的事：把最后一个hidden state作为解码器的输入。

4.2 如何引入的呢？

在这里插入图片描述

编码器（左）对每次词的输出作为key和value（key=value）
解码器（右）RNN对上一个词的输出是query（为什么是上一次词呢？就是说我现在要找“world”对应中文的相关信息，但是我现在只有hello，因为world还没有翻译出来呢！因为翻译需要输入，而world的输入从下面一点可以得知当前这一步才能拼出来。所以是“上一次词”的输出作为query）
注意力的输出和下一个词的embedding 进行cat 作为输入

注意力和query、key、value：
key-value是输入，通过 query **偏向性地选出（即：注意力）**想要的输入

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
seq2seq与引入注意力机制的seq2seq

【即：包含了整个句子的所有特征】作为编码器的输入；解码器使用另一个 RNN 去输出。编码器-解码器：输入 → Encoder → 中间状态 → Decoder（← 新输入） → 输出与一般的模型不同的是，在 Decoder 可能会接受新的输入。编码器相当于在“提取特征”。解码器相当于“从特征（中间态）还原出输出”
复制链接

扫一扫

专栏目录

nor1take CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

25万+: 周排名

4万+: 总排名

11万+: 访问

: 等级

1233: 积分

80: 粉丝

155: 获赞

29: 评论

371: 收藏

私信

关注

热门文章

分类专栏

Android 20篇
Kika
C 1篇
C++ 5篇
NLP 1篇
常识 1篇
Redis 4篇
Java 7篇
LeedCode 8篇
计算机网络 1篇
DES 2篇
蓝桥 9篇
数据挖掘 1篇
OpenAI 5篇
机器学习 3篇
排序 2篇
Linux 2篇
背包问题 1篇
嵌入式 1篇
Tools 1篇
数据结构与算法 1篇

最新评论

【Android】Activity 的恢复
fool_bird_me: 在日志中查看不到tempdata
在 Python 中调用 GPT-3 API
Z Sir: 请问下，运行你第二个问答的代码，提示：由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败，这是什么情况
解释：01背包问题空间优化成一维数组，内循环逆序
nor1take: 因为得确保dp[j - C[i]]有意义，即：j - C[i]>=0。
解释：01背包问题空间优化成一维数组，内循环逆序
斯派洛的小麻雀: 为什么j是从v～c[i]不能是v～0啊
C语言中的\t
nor1take: b在第9位，前面8个空格。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。