论文阅读：Attention is all you need

最新推荐文章于 2024-03-28 17:49:09 发布

live_for_myself

最新推荐文章于 2024-03-28 17:49:09 发布

阅读量102

点赞数

分类专栏：论文阅读文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/landing_guy_/article/details/121008100

版权

论文阅读专栏收录该内容

39 篇文章 14 订阅

订阅专栏

文章目录

- - 前言

前言

在seq2seq中, encoder隐层的输出可以当作K, decoder隐层的输出作为Q, 这里不能反过来, 因为我们是根据注意力过滤掉K的内容, 所以K对应encoder

比如下面这张图, Q是running, 就是问谁在跑, K 注意到女孩, decoder发出Q, 对应询问什么样的信息最重要, encoder则给出相应的K

在这里插入图片描述

live_for_myself

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

live_for_myself CSDN认证博客专家 CSDN认证企业博客

码龄6年

151: 原创

4万+: 周排名

173万+: 总排名

28万+: 访问

: 等级

2554: 积分

407: 粉丝

286: 获赞

111: 评论

1458: 收藏

私信

关注

热门文章

分类专栏

最新评论

论文阅读：Synthesizing Obama: Learning Lip Sync from Audio
1是你啊: 写的很棒，最关键的点讲得很清楚
理解傅里叶（一）
橙意满满的西瓜大侠: 太厉害了，解决了我的难题
Action Unit到底是什么？
锦鲤程序猿: 作者想问一下这些视频处理成图片后，还要怎么处理才能用作训练数据集呢
理解FFT, STFT, 加窗的含义
zyjnewcomer: 我们能够知道加上窗后中心频率衰减了多少, 第二高的比例是多少, 相当于从不可控到可控了这句话是什么意思呢？在我看来加窗后原来突出的特征频率不突出了，这样有点得不偿失呀？
论文阅读：HeadGAN: One-shot Neural Head Synthesis and Editing
yangguang1374: 你好，我想问一下相机参数R_7对应的代码在哪，我在代码里找到的的相机参数是一个缩放系数、旋转矩阵和转移矩阵

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

live_for_myself 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。