计算机视觉专栏
文章平均质量分 90
马甲是掉不了一点的<.<
对深度学习感兴趣的菜鸡
展开
-
EfficientViT(2023CVPR):具有级联组注意力的内存高效视觉Transformer!
在本文中,作者对影响视觉Transformer推理速度的因素进行了系统分析,并提出了一种具有内存操作高效和级联组注意力的新型快速视觉Transformer系列,名为 EfficientViT。大量的实验证明了EfficientViT的功效和高速,并且在各种下游基准测试上也显示了其优越性。原创 2024-09-25 19:53:10 · 1135 阅读 · 0 评论 -
DeiT(ICML2021):Data-efficient image Transformer,基于新型蒸馏且数据高效的ViT!
这篇论文在2020年12月23日首次提交,也就是在ViT提出两个月后。ViT开创了Transformer在计算机视觉领域的先河,但是由于极其庞大的计算量和训练周期,难以应用在其他下游任务中,而本文在ViT的基础上提出了一种基于新型蒸馏方式的视觉Transformer,极大提高了训练速度,在不使用超大型数据集的情况下也能实现和ViT使用超大型数据集相媲美的结果,并且通过蒸馏得到了更好的结果。原创 2024-09-23 23:57:09 · 1039 阅读 · 0 评论 -
ConvNeXt(2022CVPR):卷积网络的顶峰之作,在Transformer盛行的当下,卷积网络还能再战!
自从Transformer成功应用在视觉领域并且取得显著成绩后,很多人开始抛弃卷积网络架构,转而使用Transformer。然而有的大佬不认为卷积过时了,于是有了这篇论文,本文并没有提出创新的技术,而是集百家之所长,将CV领域中的各种技巧融会贯通,使用纯卷积搭建类似于Transofmer的网络结构,以此证明了“我和你长得类似,我纯卷积效果也不输你自注意力”;最终得到了卷积神经网络的巅峰之作——ConvNext。原创 2024-09-21 21:21:50 · 1834 阅读 · 0 评论 -
RegNet(CVPR2020):Designing Network Design Spaces,设计一个网络设计空间!
在这项工作中,作者提出了一种新的网络设计范式,旨在推动对网络设计的理解并发现跨不同设置通用的设计原则。RegNet 设计空间提供了一种新的视角来理解和设计深度神经网络,强调了设计原则的发现和模型的普适性,其核心思想是,优秀网络的宽度和深度可以通过一个量化的线性函数来解释。并且在 ImageNetV1和V2 数据集上进行了广泛的实验,验证了 RegNet 设计空间的普适性和有效性。实验结果表明,RegNet 模型在不同的计算复杂度下都能保持优秀的性能。原创 2024-09-19 23:48:56 · 1023 阅读 · 0 评论 -
Vision Transformer(2020):Transformer在视觉领域的开创之作!实现NLP和CV的大一统
谷歌团队探索了 Transformer 在图像识别中的直接应用。Vision Transformer(ViT)是一种基于Transformer架构的深度学习模型,用于图像识别和计算机视觉任务。与传统的卷积神经网络(CNN)不同,ViT直接将图像视为一个序列化的输入,并利用自注意力机制来处理图像中的像素关系。ViT通过将图像分成一系列的图块(patches),并将每个图块转换为向量表示作为输入序列。然后,这些向量将通过多层的Transformer编码器进行处理,其中包含了自注意力机制和前馈神经网络层。原创 2024-09-17 10:30:14 · 1080 阅读 · 0 评论 -
Swin Transformer(ICCV 2021 best paper):基于卷积层级式架构的移动窗口视觉Transformer!
ViT在图像分类方面的结果令人鼓舞,但由于其低分辨率的特征映射和复杂度随图像大小的二次方增长,其架构不适合作为密集视觉任务或高分辨率输入图像的backbone。根据经验,作者发现 Swin Transformer架构在这些图像分类方法中实现了最佳的速度和精度权衡,即使作者的工作侧重于而不是专门用于分类。原创 2024-09-17 10:38:05 · 1098 阅读 · 0 评论 -
EffcientNetV2(2021):更快、更强、效率更高的EffcientNet!
EfficientNetV2是谷歌的MingxingTan与Quov V.Le对EfficientNet的一次升级,旨在保持参数量高效利用的同时尽可能提升训练速度。在EfficientNet的基础上,使用训练感知神经架构搜索NAS和缩放技术来优化训练速度和参数效率,然后从富含 Fused-MBConv 等新操作的搜索空间中搜索得到的;同时结合一种改进的渐进式学习方法,它会根据图像大小自适应调整正则化。原创 2024-09-18 21:15:01 · 911 阅读 · 0 评论 -
EfficientNet(2019):基于复合缩放的自动化架构搜索高效网络!
EfficientNet 由谷歌研究人员在 2019 年提出。它是一种基于 AutoAugment、AutoML 和 MobileNet 的架构,旨在提高模型的效率和性能。EfficientNet 的主要特点是它采用了一种新的缩放方法,即“复合缩放方法”,这种方法同时考虑了模型的深度、宽度和分辨率。输入图像分辨率resolution,网络深度depth以及通道宽度width。原创 2024-09-18 21:04:40 · 1039 阅读 · 0 评论