图像分类实战
文章平均质量分 96
图像分类实战
AI智韵
专注AI技术,紧跟时代前沿,将最新的论文成果运用到Yolo系列的改进中!每篇文章都包含几种改进方法,步骤详细,解释清楚,还提供了PDF版本的文章和完整的改进代码!大家遇到使用的问题,或者我写的不清楚的地方,请私信告诉我!如果是写的不够清楚,我再去修改,如果有错误和Bug,我尽快修复!谢谢大家!
展开
-
DeBiFormer实战:使用DeBiFormer实现图像分类任务(二)
训练部分。原创 2024-11-09 21:19:01 · 727 阅读 · 0 评论 -
DeBiFormer实战:使用DeBiFormer实现图像分类任务(一)
摘要一、论文介绍研究背景:视觉Transformer在计算机视觉领域展现出巨大潜力,能够捕获长距离依赖关系,具有高并行性,有利于大型模型的训练和推理。现有问题:尽管大量研究设计了高效的注意力模式,但查询并非源自语义区域的关键值对,强制所有查询关注不足的一组令牌可能无法产生最优结果。双级路由注意力虽由语义关键值对处理查询,但可能并非在所有情况下都能产生最优结果。论文目的:提出DeBiFormer,一种带有可变形双级路由注意力(DBRA)的视觉Transformer,旨在优化查询-键-值交互,自适应选原创 2024-11-09 21:17:57 · 684 阅读 · 0 评论 -
EfficientFormer实战:使用EfficientFormerV2实现图像分类任务(二)
训练部分。原创 2024-09-23 20:34:11 · 1197 阅读 · 0 评论 -
EfficientFormer实战:使用EfficientFormerV2实现图像分类任务(一)
摘要EfficientFormerV2是一种通过重新思考ViT设计选择和引入细粒度联合搜索策略而开发出的新型移动视觉骨干网络。它结合了卷积和变换器的优势,通过一系列高效的设计改进和搜索方法,实现了在移动设备上既轻又快且保持高性能的目标。这一成果为在资源受限的硬件上有效部署视觉变换器模型提供了新的思路,其主要特点和优势可以概括如下:特点低延迟与高效参数:EfficientFormerV2通过一系列设计改进和搜索策略,实现了与MobileNet相当的低延迟和高效参数数量。在相同的模型大小和延迟约束原创 2024-09-23 20:33:32 · 1167 阅读 · 0 评论 -
GCViT实战:使用GCViT实现图像分类任务(二)
训练部分。原创 2024-09-02 19:21:39 · 910 阅读 · 0 评论 -
GCViT实战:使用GCViT实现图像分类任务(一)
EMA是一种加权移动平均技术,其中每个新的平均值都是前一个平均值和当前值的加权和。在深度学习中,EMA被用于模型参数的更新,以减缓参数在训练过程中的快速波动,从而得到更加平滑和稳定的模型表现。原创 2024-08-29 07:07:54 · 1048 阅读 · 0 评论 -
GroupMamba实战:使用GroupMamba实现图像分类任务(二)
训练部分。原创 2024-08-03 11:27:56 · 1104 阅读 · 0 评论 -
RDNet实战:使用RDNet实现图像分类任务(二)
训练部分。原创 2024-07-19 06:13:41 · 1160 阅读 · 0 评论 -
RDNet实战:使用RDNet实现图像分类任务(一)
论文提出的模型主要基于对传统DenseNet架构的改进和复兴,通过一系列创新设计,旨在提升模型性能并优化其计算效率,提出了RDNet模型。原创 2024-07-09 19:38:53 · 653 阅读 · 0 评论 -
StarNet实战:使用StarNet实现图像分类任务(二)
训练部分。原创 2024-06-20 06:06:18 · 829 阅读 · 0 评论 -
StarNet实战:使用StarNet实现图像分类任务(一)
论文主要集中在介绍和分析一种新兴的学习范式——星操作(Star Operation),这是一种通过元素级乘法融合不同子空间特征的方法,通过元素级乘法(类似于“星”形符号的乘法操作)将不同子空间的特征进行融合,从而在多个研究领域中展现出出色的性能和效率。星操作在自然语言处理(NLP)和计算机视觉(CV)等多个领域中都得到了成功应用。例如,在自然语言处理中,Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作;原创 2024-06-20 06:05:44 · 788 阅读 · 0 评论 -
EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务(二)
训练部分。原创 2024-04-02 13:35:19 · 2338 阅读 · 2 评论 -
EfficientVMamba实战:使用EfficientVMamba实现图像分类任务(一)
论文:https://arxiv.org/pdf/2401.09417v1.pdf作者研究了轻量级模型设计的新方法,通过引入视觉状态空间模型(SSM)以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体,结合选择性扫描和有效跳跃采样,同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果,并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用,并指出现有轻量级模型在保持全局表示能力方面的挑战。原创 2024-04-02 13:34:47 · 1625 阅读 · 0 评论 -
Timm一些知识点
timm(Torch Image Models)是一个在PyTorch上构建的图像模型库,它提供了一系列预训练的深度学习模型,使得研究人员和开发者可以方便地进行图像分类、目标检测等任务。原创 2024-03-14 13:27:51 · 1214 阅读 · 0 评论 -
TransNeXt实战:使用TransNeXt实现图像分类任务(一)
TransNeXt是一种视觉骨干网络,它集成了聚合注意力作为令牌混合器和卷积GLU作为通道混合器。通过图像分类、目标检测和分割任务的综合评估,证明了这些混合组件的有效性。TransNeXt的特点包括:提出像素焦点注意力机制,这是一种与生物中央凹视觉紧密对齐的令牌混合器,能够缓解潜在的模型深度退化问题。提出聚合注意,这是像素聚焦注意的增强版本,它进一步将两种非qkv注意机制聚合为像素聚焦注意。提出长度缩放的余弦注意力,增强了现有注意力机制对于多尺度输入的外推能力。原创 2024-03-12 05:56:26 · 2719 阅读 · 4 评论 -
MogaNet实战:使用 MogaNet实现图像分类任务(二)
训练部分。原创 2024-03-03 03:08:56 · 1559 阅读 · 0 评论 -
MogaNet实战:使用MogaNet实现图像分类任务(一)
论文:https://arxiv.org/pdf/2211.03295.pdf作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族,称为MogaNet。MogaNet具有出色的可扩展性,在ImageNet和其他多种典型视觉基准测试中,与最先进的模型相比,其参数使用更高效,且具有竞争力的性能。原创 2024-03-03 03:08:14 · 1239 阅读 · 0 评论 -
Vim实战:使用 Vim实现图像分类任务(二)
训练部分。原创 2024-02-08 05:50:04 · 2789 阅读 · 3 评论 -
Vim实战:使用Vim实现图像分类任务(一)
论文:https://arxiv.org/pdf/2401.09417v1.pdf翻译:近年来,随着深度学习的发展,视觉模型在许多任务中取得了显著的成功。然而,随着模型规模和复杂度的增加,计算和内存的消耗也急剧增长。这限制了模型在资源有限的环境中的使用,尤其是在处理高分辨率图像时。为了解决这个问题,一种新的视觉模型架构——Vim(Vision with Mamba)被提出。Vim是一种基于状态空间模型(SSM)的视觉模型,利用了Mamba这种高效的硬件设计。原创 2024-02-06 20:00:05 · 3470 阅读 · 1 评论 -
FlashInternImage实战:使用 FlashInternImage实现图像分类任务(二)
训练部分。原创 2024-01-28 07:27:44 · 1891 阅读 · 0 评论 -
FlashInternImage实战:使用FlashInternImage实现图像分类任务(一)
论文介绍了Deformable Convolution v4(DCNv4),一种针对广泛视觉应用的高效有效运算符。DCNv4通过两个关键改进解决了其前身DCNv3的局限性:1)在空间聚合中移除softmax归一化,以增强其动态特性和表达力;2)优化内存访问,以最小化冗余操作并加速处理速度。这些改进使得DCNv4相比DCNv3具有更快的收敛速度和显著的性能提升,处理速度提高了三倍以上。DCNv4在图像分类、实例和语义分割等任务中表现出色,尤其在图像生成方面表现突出。原创 2024-01-27 19:41:26 · 1966 阅读 · 0 评论 -
UniRepLKNet实战:使用UniRepLKNet实现图像分类任务(一)
大核卷积神经网络(ConvNets)近年来受到广泛关注,但仍存在两个关键问题需要进一步研究。首先,目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则,而大核ConvNets的架构设计仍未得到充分解决。其次,尽管Transformer已在多种模态中占据主导地位,但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。本文从两个方面进行了贡献。首先,提出了设计大型卷积神经网络的四项架构准则。核心思想是利用大型内核与小型内核的本质区别:大型内核可以广角观察而无需深入。原创 2024-01-13 21:08:41 · 1721 阅读 · 0 评论 -
python的extend函数详解
Python 的extend()方法是一个非常有用的工具,它允许你将一个可迭代对象的所有元素添加到列表的末尾。通过上面的示例,你可以看到extend()是如何工作的,以及在使用它时需要注意的一些事项。记住,extend()是直接修改原始列表的,而不是创建一个新的列表。如果你想要将一个可迭代对象的所有元素添加到列表末尾,并且不介意直接修改原始列表,那么extend()或+=是很好的选择。其中,extend()更明确地表明你正在添加多个元素。原创 2023-12-08 21:51:50 · 12547 阅读 · 0 评论 -
SG-Former实战:使用SG-Former实现图像分类任务(二)
训练部分。原创 2023-09-19 06:37:50 · 1250 阅读 · 0 评论 -
SG-Former实战:使用SG-Former实现图像分类任务(一)
SG-Former是一种新型的Transformer模型,它被提出以降低视觉Transformer的计算成本,同时保持其优秀的性能表现。计算成本的降低使得SG-Former能够更有效地处理大规模的特征映射,从而提高了模型的效率和全局感知能力。SG-Former的核心思想是利用显著性图来引导Transformer模型的学习。显著性图用于估计每个区域的重要性,从而可以根据这些重要性对Token进行重新分配。具体来说,对于显著区域,SG-Former会分配更多的Token,从而获得细粒度的注意力;原创 2023-09-18 22:19:46 · 1442 阅读 · 0 评论 -
FastViT实战:使用FastViT实现图像分类任务(二)
训练部分。原创 2023-09-11 06:46:52 · 1132 阅读 · 0 评论 -
FastViT实战:使用FastViT实现图像分类任务(一)
论文翻译:https://wanghao.blog.csdn.net/article/details/132407722?或者官方源码:https://github.com/apple/ml-fastvitFastViT是一种混合ViT架构,它通过引入一种新型的token混合运算符RepMixer来达到最先进的延迟-准确性权衡。RepMixer通过消除网络中的跳过连接来降低内存访问成本。FastViT进一步应用训练时间过度参数化和大核卷积来提高准确性,并根据经验表明这些选择对延迟的影响最小。原创 2023-09-11 06:46:20 · 958 阅读 · 0 评论 -
EMO实战:使用EMO实现图像分类任务(二)
训练部分。原创 2023-08-22 05:10:56 · 153 阅读 · 0 评论 -
EMO实战:使用EMO实现图像分类任务(一)
论文翻译:https://blog.csdn.net/m0_47867638/article/details/132034098?官方源码:https://github.com/zhangzjn/EMOEMO是高效、轻量级的模型,以在参数、FLOPs和性能之间实现平衡,适用于密集预测任务。文章从倒立残差块(IRB)和Transformer的有效组件的统一角度出发,将基于CNN的IRB扩展到基于注意力的模型,并抽象出一个用于轻量级模型设计的单残留元移动块(MMB)。原创 2023-08-16 13:20:46 · 3823 阅读 · 0 评论 -
MobileViG实战:使用MobileViG实现图像分类任务(一)
论文翻译:https://blog.csdn.net/m0_47867638/article/details/131860981?官方源码:https://github.com/SLDGroup/MobileViGMobileViG是第一个用于移动设备视觉任务的混合CNN-GNN架构,它使用SVGA。MobileViG在图像分类、目标检测和实例分割任务的准确性和/或速度方面优于现有的ViG模型和现有的移动CNN和ViT架构。原创 2023-07-29 11:39:48 · 348 阅读 · 0 评论 -
FasterViT实战:使用FasterViT实现图像分类任务(二)
训练部分。原创 2023-07-22 14:20:57 · 7357 阅读 · 0 评论 -
FasterViT实战:使用FasterViT实现图像分类任务(一)
论文翻译:https://blog.csdn.net/m0_47867638/article/details/131542132官方源码:https://github.com/NVlabs/FasterViT这是一篇来自英伟达的论文。FasterViT结合了CNN的快速局部表示学习和ViT的全局建模特性的优点。新提出的分层注意力(HAT)方法将具有二次复杂度的全局自注意力分解为具有减少计算成本的多级注意力。受益于基于窗口的高效自注意力。每个窗口都可以访问参与局部和全局表示学习的专用载体Token。原创 2023-07-22 14:20:17 · 243 阅读 · 0 评论 -
InceptionNext实战:使用InceptionNext实现图像分类任务(二)
训练部分。原创 2023-07-16 06:31:45 · 8743 阅读 · 0 评论 -
InceptionNext实战:使用InceptionNext实现图像分类任务(一)
论文翻译:https://blog.csdn.net/m0_47867638/article/details/131630614官方源码:https://github.com/sail-sg/inceptionnext这是一篇来自颜水成团队的论文。作者提出InceptionNext,将大核深度卷积分解为沿通道维度的四个平行分支,即小方形核、两个正交带核和一个单位映射。通过这种新的Inception深度卷积,构建了一系列网络,不仅享有高吞吐量,而且保持有竞争力的性能。原创 2023-07-16 06:30:20 · 165 阅读 · 0 评论 -
CloFormer实战:使用CloFormer实现图像分类任务(二)
训练部分。原创 2023-07-16 06:27:51 · 121 阅读 · 0 评论 -
CloFormer实战:使用CloFormer实现图像分类任务(一)
论文翻译:https://blog.csdn.net/m0_47867638/article/details/131161083官方源码:https://github.com/qhfan/CloFormer这是一篇来自清华大学的论文。作者提出CloFormer,一种轻量级的视觉transformer,利用上下文感知局部增强。CloFormer探索了普通卷积算子中经常使用的全局共享权重和特定token的上下文感知权重在注意力中的表现,提出了一个有效而直接的模块来捕获高频局部信息。原创 2023-06-30 06:41:48 · 260 阅读 · 0 评论 -
VanillaNet实战:使用VanillaNet实现图像分类(二)
训练部分。原创 2023-06-15 06:28:51 · 218 阅读 · 0 评论 -
VanillaNet实战:使用VanillaNet实现图像分类(一)
论文翻译:https://blog.csdn.net/m0_47867638/article/details/131057152官方源码:https://github.com/huawei-noah/VanillaNetVanillaNet是华为在2023年发布的一种极简风格的CNN网络,采用了最普通的CNN网络,却达到了很好的效果。这篇文章使用VanillaNet完成植物分类任务,模型采用VanillaNet10向大家展示如何使用VanillaNet。原创 2023-06-14 22:00:26 · 10165 阅读 · 0 评论 -
DEiT实战:使用DEiT实现图像分类任务(二)
训练的主要步骤:1、使用AverageMeter保存自定义变量,包括loss,ACC1,ACC5。2、判断迭代的数据是否是奇数,由于mixup_fn只能接受偶数,所以如果不是偶数则要减去一位,让其变成偶数。但是有可能最后一次迭代只有一条数据,减去后就变成了0,所以还要判断不能小于2,如果小于2则直接中断本次循环。3、将数据输入mixup_fn生成mixup数据,然后输入model计算loss。4、 optimizer.zero_grad() 梯度清零,把loss关于weight的导数变成0。原创 2023-06-13 06:34:24 · 9366 阅读 · 0 评论 -
DEiT实战:使用DEiT实现图像分类任务(一)
DEiT是FaceBook在2020年提出的一篇Transformer模型。该模型解决了Transformer难以训练的问题,三天内使用4块GPU,完成了ImageNet的训练,并且没有使用外部数据,达到了SOTA水平。DEiT提出的蒸馏策略只增加了对token的蒸馏,没有引入其他的重要架构。如下图:蒸馏令牌与类令牌的使用类似:它通过自注意力与其他令牌交互,并在最后一层后由网络输出。蒸馏令牌允许模型从老师的输出中学习,就像在常规蒸馏中一样,同时与类令牌保持互补。原创 2023-06-13 06:33:51 · 9810 阅读 · 2 评论