![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
图像分类
文章平均质量分 93
图像分类
AI浩
2022年博客之星Top8,2021年博客之星Top6,博客专家,华为云云享专家,十佳博主,阿里云专家博主,拥有多项发明专利并参与过国家重大专项,拥有丰富的开发经验。注重理论与实践的结合,让AI学起来不再枯燥。如果大家在看文章的时候,发现了文章的错误,烦请指出,我会及时纠正。
展开
-
CNN基础——卷积神经网络的组成
以图像分类任务为例,在表5.1所示卷积神经网络中,一般包含5种类型的网络层次结构:CNN层次结构 输出尺寸 作用 输入层 W1×H1×3 卷积网络的原始输入,可以是原始或预处理后的像素矩阵 卷积层 W1×H1×K 参数共享、局部连接,利用平移不变性从全局特征图提取局部特征 激活层 W1×H1×K 将卷积层的输出结果进行非线性映射 池化层 W2×H2×K 进一步筛选特征,可以有效减少后续网络层次所需的参数量 全原创 2021-05-13 11:00:36 · 18111 阅读 · 1 评论 -
CNN基础——如何设置BatchSize
3.5 Batch_Size3.5.1 为什么需要 Batch_Size?Batch的选择,首先决定的是下降的方向。如果数据集比较小,可采用全数据集的形式,好处是:由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。 由于不同权重的梯度值差别巨大,因此选取一个全局的学习率很困难。 Full Batch Learning 可以使用 Rprop 只基于梯度符号并且针对性单独更新各权值。对于更大的数据集,假如采用全数据集的形式,坏处是:随着数据集的海量增长和内存限制原创 2021-05-14 18:00:53 · 27926 阅读 · 17 评论 -
CNN基础——激活函数
1、什么是激活函数激活函数(Activation functions)对于人工神经网络 模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。如下图,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数。引入激活函数是为了增加神经网络模型的非线性。没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后,无非还是个矩阵相乘罢了。2、为什么要使用激活函数?激活函数对模型学习、理解非常复杂和非线性的函数具有重.原创 2021-05-15 22:16:10 · 26245 阅读 · 1 评论 -
RDNet实战:使用RDNet实现图像分类任务(一)
论文提出的模型主要基于对传统DenseNet架构的改进和复兴,通过一系列创新设计,旨在提升模型性能并优化其计算效率,提出了RDNet模型。原创 2024-07-09 18:24:16 · 1008 阅读 · 0 评论 -
StarNet实战:使用StarNet实现图像分类任务(一)
论文主要集中在介绍和分析一种新兴的学习范式——星操作(Star Operation),这是一种通过元素级乘法融合不同子空间特征的方法,通过元素级乘法(类似于“星”形符号的乘法操作)将不同子空间的特征进行融合,从而在多个研究领域中展现出出色的性能和效率。星操作在自然语言处理(NLP)和计算机视觉(CV)等多个领域中都得到了成功应用。例如,在自然语言处理中,Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作;原创 2024-06-16 09:08:39 · 1136 阅读 · 0 评论 -
MobileNetV4实战:使用 MobileNetV4实现图像分类任务(二)
训练部分。原创 2024-06-09 07:43:10 · 981 阅读 · 0 评论 -
MobileNetV4实战:使用MobileNetV4实现图像分类任务(一)
论文链接:https://arxiv.org/pdf/2404.10518MobileNetV4,作为新一代移动设备神经网络架构,凭借其创新的通用倒置瓶颈UIB块和Mobile MQA注意力块,实现了计算效率和运行速度的显著提升。该架构通过精炼的神经架构搜索NAS方法,创建了多个卓越性能的移动设备模型。新型知识蒸馏技术进一步提高了模型准确性,而Mobile MQA块相较于传统多头注意力,在移动加速器上实现了显著的推理加速。原创 2024-06-04 20:06:28 · 1086 阅读 · 0 评论 -
EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务(二)
训练部分。原创 2024-04-02 06:28:43 · 2216 阅读 · 4 评论 -
EfficientVMamba实战:使用EfficientVMamba实现图像分类任务(一)
论文:https://arxiv.org/pdf/2401.09417v1.pdf作者研究了轻量级模型设计的新方法,通过引入视觉状态空间模型(SSM)以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体,结合选择性扫描和有效跳跃采样,同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果,并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用,并指出现有轻量级模型在保持全局表示能力方面的挑战。原创 2024-04-02 06:03:33 · 1828 阅读 · 2 评论 -
MAE实战:使用MAE提高主干网络的精度(二)
看完第一篇,大家应该对MAE的训练流程有所了解了。链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/136022910?这篇再讲述一篇案例,我们一起实现吧!原创 2024-03-04 22:00:00 · 1337 阅读 · 3 评论 -
MogaNet实战:使用 MogaNet实现图像分类任务(二)
训练部分。原创 2024-02-13 09:01:25 · 1761 阅读 · 5 评论 -
MogaNet实战:使用MogaNet实现图像分类任务(一)
论文:https://arxiv.org/pdf/2211.03295.pdf作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族,称为MogaNet。MogaNet具有出色的可扩展性,在ImageNet和其他多种典型视觉基准测试中,与最先进的模型相比,其参数使用更高效,且具有竞争力的性能。原创 2024-02-12 17:44:02 · 1243 阅读 · 0 评论 -
MAE实战:使用MAE提高主干网络的精度(一)
MAE已经出来有几年了,很多人还不知道怎么去使用,本文通过两个例子说明一下。分两部分,一部分介绍一个简单的例子,让大家了解MAE训练的流程。一部分是一个新的模型,让大家了解如何将自己的模型加入MAE。论文标题: Masked Autoencoders Are Scalable Vision Learners论文地址:https://arxiv.org/abs/2111.06377代码地址:https://github.com/facebookresearch/maeMAE的两个核心设计:参考文章:https原创 2024-02-04 20:00:00 · 2700 阅读 · 3 评论 -
Vim实战:使用 Vim实现图像分类任务(二)
训练部分。原创 2024-01-30 07:08:25 · 1395 阅读 · 0 评论 -
Vim实战:使用Vim实现图像分类任务(一)
论文:https://arxiv.org/pdf/2401.09417v1.pdf翻译:近年来,随着深度学习的发展,视觉模型在许多任务中取得了显著的成功。然而,随着模型规模和复杂度的增加,计算和内存的消耗也急剧增长。这限制了模型在资源有限的环境中的使用,尤其是在处理高分辨率图像时。为了解决这个问题,一种新的视觉模型架构——Vim(Vision with Mamba)被提出。Vim是一种基于状态空间模型(SSM)的视觉模型,利用了Mamba这种高效的硬件设计。原创 2024-01-29 21:21:10 · 1831 阅读 · 2 评论 -
FlashInternImage实战:使用 FlashInternImage实现图像分类任务(二)
训练部分。原创 2024-01-27 09:51:33 · 1163 阅读 · 0 评论 -
FlashInternImage实战:使用FlashInternImage实现图像分类任务(一)
论文介绍了Deformable Convolution v4(DCNv4),一种针对广泛视觉应用的高效有效运算符。DCNv4通过两个关键改进解决了其前身DCNv3的局限性:1)在空间聚合中移除softmax归一化,以增强其动态特性和表达力;2)优化内存访问,以最小化冗余操作并加速处理速度。这些改进使得DCNv4相比DCNv3具有更快的收敛速度和显著的性能提升,处理速度提高了三倍以上。DCNv4在图像分类、实例和语义分割等任务中表现出色,尤其在图像生成方面表现突出。原创 2024-01-26 21:41:48 · 1240 阅读 · 0 评论 -
UniRepLKNet实战:使用 UniRepLKNet实现图像分类任务(二)
训练部分。原创 2024-01-13 22:12:48 · 1531 阅读 · 0 评论 -
UniRepLKNet实战:使用UniRepLKNet实现图像分类任务(一)
大核卷积神经网络(ConvNets)近年来受到广泛关注,但仍存在两个关键问题需要进一步研究。首先,目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则,而大核ConvNets的架构设计仍未得到充分解决。其次,尽管Transformer已在多种模态中占据主导地位,但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。本文从两个方面进行了贡献。首先,提出了设计大型卷积神经网络的四项架构准则。核心思想是利用大型内核与小型内核的本质区别:大型内核可以广角观察而无需深入。原创 2024-01-10 21:02:09 · 1517 阅读 · 4 评论 -
TransXNet实战:使用 TransXNet实现图像分类任务(二)
训练部分。原创 2023-12-19 19:51:00 · 1356 阅读 · 0 评论 -
TransXNet实战:使用TransXNet实现图像分类任务(一)
论文提出了一种名为D-Mixer的轻量级双动态TokenMixer,旨在解决传统卷积的静态性质导致的表示差异和特征融合问题。D-Mixer通过应用高效的全局注意力和输入依赖的深度卷积,分别对均匀分割的特征片段进行处理,使网络具有强大的归纳偏置和更大的有效感受野。以D-Mixer作为基本构建块,设计了新颖的混合CNN-Transformer视觉主干网络TransXNet,其性能优越。原创 2023-12-19 19:49:17 · 1395 阅读 · 0 评论 -
Hiera实战:使用Hiera实现图像分类任务(二)
训练部分。原创 2023-12-07 06:35:00 · 1260 阅读 · 1 评论 -
RevCol实战:使用RevCol实现图像分类任务(二)
训练部分。原创 2023-11-25 09:05:11 · 1413 阅读 · 1 评论 -
RevCol实战:使用RevCol实现图像分类任务(一)
可逆柱状结构(RevCol)是一种网络结构,它受到GLOM(Global Columnar Memory)的启发。RevCol由N个子网络(或称为列)组成,每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题,通过在前面的列中添加额外的监督,以保持特征和输入图像之间的互信息。此外,RevCol可以逐渐解耦语义和低级信息,从而提取和利用任务相关信息来进一步提高性能。在实现上,对于中间监督,采用了加权求和的方式将两个损失合并,对于所有变体的RevCol,通过实验确定将监督头添加到特定的列中。原创 2023-11-25 08:46:46 · 1304 阅读 · 0 评论 -
SG-Former实战:使用SG-Former实现图像分类任务(二)
训练部分。原创 2023-09-13 06:32:24 · 476 阅读 · 1 评论 -
SG-Former实战:使用SG-Former实现图像分类任务(一)
SG-Former是一种新型的Transformer模型,它被提出以降低视觉Transformer的计算成本,同时保持其优秀的性能表现。计算成本的降低使得SG-Former能够更有效地处理大规模的特征映射,从而提高了模型的效率和全局感知能力。SG-Former的核心思想是利用显著性图来引导Transformer模型的学习。显著性图用于估计每个区域的重要性,从而可以根据这些重要性对Token进行重新分配。具体来说,对于显著区域,SG-Former会分配更多的Token,从而获得细粒度的注意力;原创 2023-09-12 06:20:45 · 818 阅读 · 2 评论 -
FastViT实战:使用FastViT实现图像分类任务(二)
训练部分。原创 2023-09-05 20:10:54 · 477 阅读 · 0 评论 -
FastViT实战:使用FastViT实现图像分类任务(一)
论文翻译:https://wanghao.blog.csdn.net/article/details/132407722?或者官方源码:https://github.com/apple/ml-fastvitFastViT是一种混合ViT架构,它通过引入一种新型的token混合运算符RepMixer来达到最先进的延迟-准确性权衡。RepMixer通过消除网络中的跳过连接来降低内存访问成本。FastViT进一步应用训练时间过度参数化和大核卷积来提高准确性,并根据经验表明这些选择对延迟的影响最小。原创 2023-09-05 06:21:29 · 806 阅读 · 0 评论 -
EMO实战:使用EMO实现图像分类任务(二)
训练部分。原创 2023-08-20 06:46:59 · 524 阅读 · 0 评论 -
MobileViG实战:使用MobileViG实现图像分类任务(二)
训练部分。原创 2023-07-22 14:44:10 · 3346 阅读 · 0 评论 -
MobileViG实战:使用MobileViG实现图像分类任务(一)
论文翻译:https://blog.csdn.net/m0_47867638/article/details/131860981?官方源码:https://github.com/SLDGroup/MobileViGMobileViG是第一个用于移动设备视觉任务的混合CNN-GNN架构,它使用SVGA。MobileViG在图像分类、目标检测和实例分割任务的准确性和/或速度方面优于现有的ViG模型和现有的移动CNN和ViT架构。原创 2023-07-22 14:08:55 · 544 阅读 · 0 评论 -
FasterViT实战:使用FasterViT实现图像分类任务(二)
训练部分。原创 2023-07-17 19:18:53 · 530 阅读 · 0 评论 -
FasterViT实战:使用FasterViT实现图像分类任务(一)
论文翻译:https://blog.csdn.net/m0_47867638/article/details/131542132官方源码:https://github.com/NVlabs/FasterViT这是一篇来自英伟达的论文。FasterViT结合了CNN的快速局部表示学习和ViT的全局建模特性的优点。新提出的分层注意力(HAT)方法将具有二次复杂度的全局自注意力分解为具有减少计算成本的多级注意力。受益于基于窗口的高效自注意力。每个窗口都可以访问参与局部和全局表示学习的专用载体Token。原创 2023-07-16 22:45:59 · 1238 阅读 · 4 评论 -
InceptionNext实战:使用InceptionNext实现图像分类任务(二)
训练部分。原创 2023-06-30 06:56:34 · 656 阅读 · 0 评论 -
InceptionNext实战:使用InceptionNext实现图像分类任务(一)
论文翻译:https://wanghao.blog.csdn.net/article/details/131347001?官方源码:https://github.com/sail-sg/inceptionnext这是一篇来自颜水成团队的论文。作者提出InceptionNext,将大核深度卷积分解为沿通道维度的四个平行分支,即小方形核、两个正交带核和一个单位映射。通过这种新的Inception深度卷积,构建了一系列网络,不仅享有高吞吐量,而且保持有竞争力的性能。原创 2023-06-25 22:30:43 · 1051 阅读 · 1 评论 -
CloFormer实战:使用CloFormer实现图像分类任务(二)
训练部分。原创 2023-06-20 21:54:35 · 1464 阅读 · 1 评论 -
CloFormer实战:使用CloFormer实现图像分类任务(一)
论文翻译:https://blog.csdn.net/m0_47867638/article/details/131161083官方源码:https://github.com/qhfan/CloFormer这是一篇来自清华大学的论文。作者提出CloFormer,一种轻量级的视觉transformer,利用上下文感知局部增强。CloFormer探索了普通卷积算子中经常使用的全局共享权重和特定token的上下文感知权重在注意力中的表现,提出了一个有效而直接的模块来捕获高频局部信息。原创 2023-06-20 21:31:43 · 1171 阅读 · 0 评论 -
VanillaNet实战:使用VanillaNet实现图像分类(二)
训练部分。原创 2023-06-20 05:14:00 · 2106 阅读 · 0 评论 -
VanillaNet实战:使用VanillaNet实现图像分类(一)
论文翻译:https://blog.csdn.net/m0_47867638/article/details/131057152官方源码:https://github.com/huawei-noah/VanillaNetVanillaNet是华为在2023年发布的一种极简风格的CNN网络,采用了最普通的CNN网络,却达到了很好的效果。这篇文章使用VanillaNet完成植物分类任务,模型采用VanillaNet10向大家展示如何使用VanillaNet。原创 2023-06-14 21:57:07 · 712 阅读 · 0 评论 -
BiFormer实战:使用BiFormer实现图像分类任务(二)
训练部分。原创 2023-06-09 06:42:03 · 1205 阅读 · 0 评论