![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
图像分类
文章平均质量分 96
太阳花的小绿豆
这个作者很懒,什么都没留下…
展开
-
MobileViT模型简介
自从2010年ViT(Vision Transformer)模型的横空出世,人们发现了Transformer架构在视觉领域的巨大潜力。近些年,越来越多的科研人员投入Transformer的怀抱,视觉领域的各项任务也不断被Transformer架构模型刷新。Transformer虽然强大,但在现在看来落地仍存在很多难点。比如模型参数太大(比如ViT Large Patch16模型光权重就有1个多G),而且算力要求太高,这基本就给移动端部署Transformer模型判了死刑。原创 2022-09-05 23:43:49 · 35801 阅读 · 38 评论 -
Grad-CAM简介
对于常用的深度学习网络(例如CNN),可解释性并不强(至少现在是这么认为的),它为什么会这么预测,它关注的点在哪里,我们并不知道。很多科研人员想方设法地去探究其内在的联系,也有很多相关的论文。今天本文简单聊一聊Grad-CAM,这并不是一篇新的文章,但很有参考意义。通过Grad-CAM我们能够绘制出如下的热力图(对应给定类别,网络到底关注哪些区域)。原创 2022-02-24 20:40:31 · 92931 阅读 · 96 评论 -
ConvNeXt网络详解
今年(2022)一月份,Facebook AI Research和UC Berkeley一起发表了一篇文章A ConvNet for the 2020s,在文章中提出了ConvNeXt纯卷积神经网络,它对标的是2021年非常火的Swin Transformer,通过一系列实验比对,在相同的FLOPs下,ConvNeXt相比Swin Transformer拥有更快的推理速度以及更高的准确率,在ImageNet 22K上ConvNeXt-XL达到了87.8%的准确率原创 2022-01-20 11:35:59 · 74610 阅读 · 43 评论 -
Swin-Transformer网络结构详解
文章目录0 前言1 网络整体框架2 Patch Merging详解3 W-MSA详解Ω(MSA)\Omega (MSA)Ω(MSA)模块计算量Ω(W−MSA)\Omega (W-MSA)Ω(W−MSA)模块计算量4 SW-MSA详解5 Relative Position Bias详解6 模型详细配置参数0 前言Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章,并且已经获得ICCV 2021 best paper的荣誉称号。Swin Transformer网络是Tran原创 2021-11-03 21:04:05 · 217942 阅读 · 157 评论 -
Vision Transformer详解
论文名称: An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale论文下载链接:https://arxiv.org/abs/2010.11929原论文对应源码:https://github.com/google-research/vision_transformerPytorch实现代码: pytorch_classification/vision_transformer文章目录前言模型详解Vision原创 2021-06-26 14:50:39 · 250626 阅读 · 151 评论 -
EfficientNetV2网络详解
文章目录EfficientNetv1中存在的问题EfficientNetv2中做出的贡献NAS 搜索EfficientNetv2网络框架EfficientNetv1中存在的问题作者系统性的研究了EfficientNet的训练过程,并总结出了三个问题:训练图像的尺寸很大时,训练速度非常慢。 这确实是个槽点,在之前使用EfficientNet时发现当使用到B3(img_size=300x300)- B7(img_size=600)时基本训练不动,而且非常吃显存。通过下表可以看到,在Tesla V100上原创 2021-05-18 13:14:04 · 63240 阅读 · 78 评论