Attention Is All You Need总结

最新推荐文章于 2023-11-06 15:17:53 发布

我岂是非人哉

最新推荐文章于 2023-11-06 15:17:53 发布

阅读量334

点赞数

分类专栏：机器学习文章标签：人工智能深度学习机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ben1010101010/article/details/105688609

版权

非常著名的Transformer

一句话总结：替代传统的序列转化模型，只用attention（不使用rnn/cnn），可以并行化训练；Attention机制在输入和输出序列中都不会受距离的影响

抛弃循环recurrence模型，只用attention,抽取输入和输出序列之间的全局依赖关系（全局语义信息）

传统的优化方法：1. 计算量（指数增长） 2. 远距离依赖仍然无法捕捉

Transformer计算量减少，但是同时也减少了有效的（分辨率）resolution, Multihead attention来解决这个问题

第一个只用self-attention来算输入和输出序列的representation的模型

自回归：t-1会作用到t的输出

stacked self-attention

encoder decoder stacks

6个一模一样的层维度统一成512维

残差连接+层归一化

decoder的self-attention做了微调，不能attend到之后的位置右移一步， mask

attention就是把一个query和键值对映射到输出

query一个key，然后算出相似度，这个相似度作为权重，乘上value

得到value的加权和

点乘和加法都可以，但是点乘是矩阵运算更快

没有缩放因子，softmax的区域会推到梯度非常小的地方（饱和区）

multihead attention可以attend到不同位置的不同表示子空间（不同子空间语义）

重点：

最低0.47元/天解锁文章

我岂是非人哉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Attention Is All You Need总结

非常著名的Transformer一句话总结：替代传统的序列转化模型，只用attention（不使用rnn/cnn），可以并行化训练；Attention机制在输入和输出序列中都不会受距离的影响抛弃循环recurrence模型，只用attention,抽取输入和输出序列之间的全局依赖关系（全局语义信息）传统的优化方法：1. 计算量（指数增长） 2. 远距离依赖仍然无法捕捉Transfo...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。