李宏毅 Attention

最新推荐文章于 2024-05-11 19:22:56 发布

ciki_tang

最新推荐文章于 2024-05-11 19:22:56 发布

阅读量275

点赞数

分类专栏：算法文章标签：深度学习机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tangweirensheng/article/details/120619702

版权

算法专栏收录该内容

11 篇文章 0 订阅

订阅专栏

考虑整个 sequence 长度的内容

可以多层 self attention 叠加 attention is all you need

1, dafada

alpha : attention score 代表两个输入的关联性

b1~b4 并行产生

Muti-head self attention

Positional Encoding

No position information in self attention

each position has a unique position vector e^i

Truncated self attention 并不需要看整句话，只需要考虑小范围数据，加快训练速度

self attention 适用于输入为 vector set

影像也可以看成一个 vector set ,每一个pixel 都可以看成一个vector

CNN是简化版的 self attention, CNN相对是小的 model 适合数据集小的情况

CNN 的model小，弹性小，适合数据比较小的情况

self attention 比 RNN更平行处理输入数据，运算速度更快

很多架构从 RNN改成 self attention

self attention 变形很多，运算量非常大

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ciki_tang CSDN认证博客专家 CSDN认证企业博客

码龄6年

128: 原创

2万+: 周排名

2万+: 总排名

15万+: 访问

: 等级

1375: 积分

518: 粉丝

80: 获赞

24: 评论

310: 收藏

私信

关注

热门文章

分类专栏

算法 11篇
科研 32篇
观感 1篇
latex 1篇
pytorch 讨论 10篇
matlab 4篇
python语法 35篇
python等安装 2篇
pytorch bug 10篇
服务器程序 4篇
参数调试 10篇
Xmind 1篇

最新评论

Intermodulation Distortion三阶交调 IMD
夏了冬至: 想问一下，有的时候imd3单位是dbm，这是指的绝对值，其实就是im3的功率，但是会有两个，2f1-f2，2f2-f1，两个im3功率还不一样，如果是绝对值，我要看两个中的哪个才对呢？
基带信号，带通信号，带宽，
qq_32846877: “如果这个基带信号经过调制后成为一个带通信号，转移到了20kHz到30kHz的频带内，那么它的带宽就是20kHz。”——这个带宽不应该还是10kHz吗？
波长间隔，频率间隔
m0_62093806: 感谢解惑
UserWarning：Named tensors and all their associated APIs are an experimental feature...
毛亦乐: 好像可以不管，降了版本确实不报错但是速度好像也慢了点
UserWarning：Named tensors and all their associated APIs are an experimental feature...
btthe: 这怎么搞啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。