极智AI | 详解 ViT 算法实现

极智视界

已于 2022-06-11 23:06:55 修改

阅读量4.6k

点赞数 5

分类专栏：极智AI 文章标签：人工智能算法深度学习 transformer 计算机视觉

于 2022-05-21 15:32:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42405819/article/details/124898872

版权

极智AI 专栏收录该内容

175 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Vision Transformer (ViT)算法，包括其设计原理和实现过程。ViT通过借鉴Transformer架构，打破了CNN在计算机视觉领域的主导地位。文章涵盖了ViT的图片分块、位置编码、多头注意力机制和MLP的实现细节，同时探讨了ViT在不同数据集上的性能表现，以及与ResNet的对比。此外，还提供了ViT算法的代码实现参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎关注我的公众号 [极智视界]，获取我的更多笔记分享

大家好，我是极智视界，本文详细介绍一下 ViT 算法的设计与实现，包括代码。

ViT 全称 Vision Transformer，是 transformer 在 CV 领域应用表现好的开始，而在此之前，CV 领域一直是 CNN 的天下，虽然 ViT 主要用于图像分类这个简单的任务，但它说到底挑战了自从 2012 年 AlexNet 出世以来，卷积神经网络在计算机领域绝对统治的地位。ViT 的重要性不只在于证明了 transformer 在图像分类上也能 work 的很好，其贡献还在于它给大家挖了个大坑，并随之而来井喷出了大量 ViT 变种以及其他视觉任务的应用，如目标检测 (DETR)、语义分割 (SETR)、图像生成 (GANsformer) 、多模态应用 (CLIP) 等。

本文不止会介绍 ViT 的原理，还会介绍 ViT 的实现，包括代码。下面开始。

参考 Paper：《An Image is Worth 16x16 words Transformers for image recognition at scale》。

文章目录

1 ViT 算法原理

用 CNN 来提图像特征是大家所熟悉的，CNN 里最重要的算子是卷积，卷积具有两个很重要

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

极智视界 你的支持是我持续创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。