Transformer - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

最新推荐文章于 2022-07-04 21:43:16 发布

清欢守护者

最新推荐文章于 2022-07-04 21:43:16 发布

阅读量6.9k

点赞数 6

分类专栏： CV 文章标签： Transformer 图像分类计算机视觉 ViT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/irving512/article/details/109716916

版权

CV 专栏收录该内容

98 篇文章 20 订阅

订阅专栏

文章目录

0. 前言

相关资料：
论文基本信息
- 领域：Transformer & CV
- 作者单位：谷歌
- 发表时间：2020.11
一句话总结：使用纯Transformer用于图像识别

1. 要解决什么问题

之前在CV中，attention一般用于卷积网络中，或者用于替换CNN的一部分（但总体还是CNN结构）。

2. 用了什么方法

通过实验，作者发现以下情况
- 对于中等数据集（如ImageNet），Transformer的效果不如现在的SOTA结构。可能原因是Transformer没有CNN的translation equivariance（平移不变性）和locality（不知道怎么翻译，获取局部信息的能力？）
- 对于大型数据集（14M-300M图像），效果SOTA。
本文网络特点
- 尽可能使用原始Transformer结构。
- 对于输入图像进行切片，每个切片之间没有重叠，将切片结果作为Transformer的序列输入。
  - 即将HxWxC的图像转换为 Nx(P^2 x C)，其中 N = HW/P^2
  - 在处理更大尺寸图片时，每个Patch的尺寸不变，序列长度增加。

3. 效果如何

大数据集上效果可以

4. 还存在什么问题&可借鉴之处

这个数据patches有点意思，不过也有点卷积的意思。

清欢守护者

关注

6
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
Transformer - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料：arxivgithub，PyTorch论文解读论文基本信息领域：Transformer & CV作者单位：谷歌发表时间：2020.11一句话总结：使用纯Transformer用于图像识别1. 要解决什么问题之前在CV中，attention一般用于卷积网络中，或者用于替换CNN的一部分（但总体还是CNN结构）。2. 用了什
复制链接

扫一扫

专栏目录

清欢守护者 CSDN认证博客专家 CSDN认证企业博客

码龄8年

223: 原创

4万+: 周排名

96万+: 总排名

52万+: 访问

: 等级

4495: 积分

490: 粉丝

438: 获赞

347: 评论

2157: 收藏

私信

关注

热门文章

分类专栏

OpenVINO 1篇
ROS 7篇
公开课 6篇
MNN 2篇
CV 98篇
CS194 5篇
工具 19篇
数据集 10篇
TensorRT 11篇
TVM 2篇
Docker 6篇
NCNN 2篇
CVAT 5篇
GCN 1篇
查漏补缺 2篇
Python 26篇
运维相关 3篇
C++ 26篇
Linux 1篇
PyTorch 16篇

最新评论

Python进阶(3) Flask & Swagger
躺平当下: 博主好，请问最后【3.举例】的代码中server.api的包在哪？这个包还没找到。
时空行为检测数据集 JHMDB & UCF101_24 详解
Y·mx: 你好请问有jhmdb数据集的splitfiles/finalAnnots.mat文件吗
在 VS2019 中编译/使用 ZeroMQ
m0_55252723: 请问编译好了之后要怎么做呢
SlowFast/mmaction2 中的 GradCAM 工具
weixin_53094984: 博主有没有看Facebook出的slowfast源码呀，可以出一篇博客吗
标注工具 VoTT 详细教程
ZJZ_Y: 下载不了怎么办啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。