超越CNN的ViT模型及其应用前景

最新推荐文章于 2024-04-23 13:23:49 发布

VIP文章 CV案例精选

最新推荐文章于 2024-04-23 13:23:49 发布

阅读量3.1k

点赞数 2

文章标签： cnn 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cvanlijingxuan/article/details/122296810

版权

©作者 | 苏菲

Transformer 模型在 NLP 领域获得了巨大的成功，以此为内核的超大规模预训练模型BERT、GPT-3 在 NLP 各个任务中都大放异彩，令人瞩目。

计算机视觉分析任务也借鉴了Transformer 模型的思想和方法，Meta公司的DETR模型中就使用 Transformer 和端到端方法实现了 CV 领域的目标检测任务，之后 Google 公司又推出了用纯粹的 Transformer 去完成计算机视觉任务的 ViT 模型。

本文首先比较 ViT 模型与传统计算机视觉模型 CNN 的不同，详细指出 ViT 模型的优点和好处，介绍了 ViT 模型的各种变体、扩展和应用前景。

01 超越 CNN

ViT 就是“Vi”加上“T”，其中“Vi”是计算机视觉 Vision，而“T”就是 Transformer 模型。

ViT模型由 Goolge 团队在 ICLR2021 论文“An Image is Worth 16x16 Words:Transformers for ImageRecognition at Scale”（ https://arxiv.org/abs/2010.11929 ）提出，其目标是本着尽可能少修改的原则，将 Transformer 模型直接迁移到计算机视觉分类任务上。

论文认为没有必要依赖于传统的 CNN，直接用 Transformer 也能在分类任务中获得好的结果，尤其是在使用大规模训练集的条件下。

并且，在大规模数据集上预训练好的模型，迁移到中等数据集或小数据集任务时，也能取得比 CNN 更优的性能。

那么，ViT 模型与 CNN 相比，到底好在什么地方呢？具体来说，有以下六个方面的不同：

（1）从浅层和深层中获得的特征之间，ViT 有更多的相似性；

（2）ViT 表示从浅层获得全局特征；

（3）ViT 中的跳跃连接影响比 CNNs（ResNet）大，且大大地影响特征的表现和相似性；

（4）ViT 保留了比 ResNet 更多的空间信息；

（5）通过大量的数据，ViT 能学到高质量的中间特征；

（6）与 ResNet 相比，ViT 的表示是更接近于 MLP-Mixer。

1. 浅层和深层的表示更相似

如图1所示&

最低0.47元/天解锁文章

关注

2
点赞
踩
27

收藏

觉得还不错? 一键收藏
打赏
0
评论
超越CNN的ViT模型及其应用前景

本文首先比较 ViT 模型与传统计算机视觉模型 CNN 的不同，详细指出 ViT 模型的优点和好处，介绍了 ViT 模型的各种变体、扩展和应用前景。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CV案例精选 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。