李宏毅——transformer

最新推荐文章于 2024-06-23 11:13:43 发布

shaoyue1234

最新推荐文章于 2024-06-23 11:13:43 发布

阅读量1.7k

点赞数

分类专栏：李宏毅

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shaoyue1234/article/details/102469066

版权

李宏毅专栏收录该内容

7 篇文章 8 订阅

订阅专栏

李宏毅——transformer

导读
self-attention
- multi-head self-attention
- 顺序问题
seq2seq with attention
transformer

导读

什么是transformer：
在这里插入图片描述
对于序列，常用的是RNN
RNN的问题，不容易并行处理。
所以有人提出了，用CNN来替代RNN。
图中每一个三角形代表一个filter。
但是CNN只能考虑有限的信息，比如图中只有三个，这种可以通过上层的叠加来考虑更多的信息。
这种的好处是可以并行化，但是缺点是要叠很多层，才能看到长期的咨询。
在这里插入图片描述
所以的做法是self-attention
它也可以输入是sequence，输出是sequence，它可以看到整个输入的序列，也可以同时计算。

self-attention

首先出现在attention is all you need
在这里插入图片描述

是如何做平行化的呢？

multi-head self-attention

在这里插入图片描述

mult-head的优点是不同的head可以关注不同的信息，每个head各司其职

顺序问题

对self-attention来说，输入的次序是不重要的
原paper中，使用人工设置的positional vector ei
也可以在xi上append一个one-hot的vector，但是实际的效果是一样的。
在这里插入图片描述
Wp可以学习，但是实际上也是手工设置的
如下图

seq2seq with attention

seq2seq由encoder和decoder组成
在这里插入图片描述
其中的RNN可以由self-attention取代

具体思想可参考动画

transformer

网络架构

在这里插入图片描述

attention visualization

在这里插入图片描述

下面的head只考虑临近的关系，上面的考虑更多远的关系

例子

基本上可以用seq2seq的都可以用transformer
比如从文章集合中生成wikipedia
在这里插入图片描述
universal transformer
在深度上做RNN，每一层都是一样的transformer
transformer最早用在文字上，现在也可以用在图像上

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
李宏毅——transformer

李宏毅——transformer导读self-attentionmulti-head self-attention顺序问题seq2seq with attentiontransformer网络架构attention visualization例子导读什么是transformer：对于序列，常用的是RNNRNN的问题，不容易并行处理。所以有人提出了，用CNN来替代RNN。图中每一个三角...
复制链接

扫一扫

专栏目录

shaoyue1234 CSDN认证博客专家 CSDN认证企业博客

码龄10年

41: 原创

7万+: 周排名

73万+: 总排名

9万+: 访问

: 等级

1135: 积分

41: 粉丝

47: 获赞

13: 评论

403: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据增强——时间序列
Mint-V: Le Guennec A, Malinowski S, Tavenard R. Data augmentation for time series classification using convolutional neural networks. In: IWAATD; 2016.
数据增强——时间序列
weixin_51536045: 请问您找到对应的文章了嘛？
视频异常检测——Robust Anomaly Detection in Videos Using Multilevel Representations
一只喻: 那如何通过生成的异常检测图来判断该视频是否有异常呢？
parallels desktop 中ubuntu忘记密码
木偶vz: 重启后看提示，有些是眼 Esc，注意不要按太快，进入后任选一个 recovery mode，再选择root登入就可以操作了
视频异常检测——Anomaly Detection in Video via Self-Supervised and Multi-Task Learning
研途可达: 研究动机描述应该是: 通过单个代理任务建模异常事件检测，例如。由于代理任务和实际的（异常检测）任务之间缺乏完美的对齐。为了减少模型对异常检测任务的不对齐性，我们建议通过在多个代理任务上联合优化模型来进行训练。关于代理任务的不对齐性：可以这么理解，就是代理任务（proxy task）并不是主要用来解决异常检测的，而是使用代理任务的结果作为异常检测的参考度量，所以会有一定的在检测方面的的不对齐性。个人理解，如有误，请批评指正。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。