Transformer结构的初步探索

最新推荐文章于 2024-05-05 19:05:43 发布

hands_up_down

最新推荐文章于 2024-05-05 19:05:43 发布

阅读量884

点赞数

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hands_up_down/article/details/122021285

版权

https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0这是原作者来做的swim transformer的核心要点的讲解

首先，有一个重要的研究方向是为NLP和CV进行统一建模。从2017年，NLP领域基本上就是使用transformer结构来处理自然语言，而cv领域自2012的alexnet开始，一直沉浸在cnn的世界中。但这套方法论继承自上世纪九十年代的lenet.CV的目标是要任意地理解图片以及视频，但是目前的任务和NLP的连接是十分微弱的

这里提到了2020年的VIT(vision transformer),使用一种暴力的方法将transformer结构用于处理图像分类任务

这个结构比之前设想的还要简单，没有看到decoder.将样本进行均分，以patch为单位，patch就相当于字块或者子图像，将patch经过处理之后送进encoder,然后通过FC head, 输出最后的分类结果

VIT取得了当年最好的性能。但是VIT的局限性在于它的结构只能处理分类问题，对于检测（区域级别）和分割（像素级别）任务无能为力

swim transformer:在VIT的基础上，针对vision signal的特点做了改进以适应更为复杂的工作

视觉信号里面有一些好的性质，层次性（hierachy），局部性（locality），平移不变性（translation invariance）,这个平移不变性我记得不是卷积操作的特性吗？？

这里提到，一开始会划分小的patch,从而获得较高分辨率的输出

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer结构的初步探索

https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0这是原作者来做的swim transformer的核心要点的讲解首先，有一个重要的研究方向是为NLP和CV进行统一建模。从2017年，NLP领域基本上就是使用t
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。