【CNN】
[ECCV 2024 DesNet变体] DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs
论文链接:https://arxiv.org/pdf/2403.19588
代码链接:https://github.com/naver-ai/rdnet
本文重新审视了密集连接卷积网络(DenseNets),揭示了其相对于占主导地位的ResNet风格架构被低估的有效性。作者认为,由于未触及的训练方法和传统设计元素未能充分展示其能力,DenseNets的潜力被忽视了。初步研究表明,通过拼接实现的密集连接非常强大,证明DenseNets可以被重新激活以与现代架构竞争
。作者系统地改进了次优组件——架构调整、块重新设计和改进的训练方案,以加宽DenseNets并提高内存效率,同时保持拼接快捷方式。采用简单架构元素的模型最终超越了Swin Transformer、ConvNeXt和DeiT-III这些残差学习谱系中的关键架构RDNet。此外,所提模型在ImageNet-1K上表现出接近最先进的性能,与最新的模型以及下游任务ADE20k语义分割和COCO目标检测/实例分割竞争。最后提供了经验分析,揭示了拼接快捷方式相对于加性快捷方式的优点,引导人们重新倾向于DenseNet风格的设计。
【图像分割】
[2024 无监督分割一切] Segment Anything without Supervision
论文链接:
代码链接:https://github.com/frank-xwang/UnSAM
分割万物模型(SAM)需要劳动密集型的数据标注。文中提出了一种无需人工标注的可提示和自动全图分割的无监督SAM(UnSAM)。UnSAM利用分而治之的策略来“发现”视觉场景的层次结构。首先利用自上而下的聚类方法将未标记的图像分割成实例/语义级别的片段。对于片段内的所有像素,采用自下而上的聚类方法迭代地将它们合并成更大的组,从而形成层次结构。然后,这些无监督的多粒度掩码被用于监督模型训练。在七个流行数据集上进行评估,UnSAM达到了与有监督对应物SAM相竞争的结果,并在无监督分割方面以11%的AR超过了之前的最先进水平。此外,还展示了有监督的SAM也可以从所提的自监督标签中受益。通过将无监督伪掩码整合到SA-1B的真实掩码中,并且仅使用1%的SA-1B数据训练UnSAM,轻量级的半监督UnSAM通常可以分割出有监督SAM忽略的实体,在SA-1B上以超过6.7%的AR和3.9%的AP超越了SAM。
[2024] BAFNet: Bilateral Attention Fusion Network for Lightweight Semantic Segmentation of Urban Remote Sensing Images
论文链接:https://arxiv.org/pdf/2409.10269
代码链接:无
大规模语义分割网络通常能取得高性能,但当面对有限的样本大小和计算资源时,其应用可能具有挑战性。在受限的网络规模和计算复杂度场景下,模型在捕捉长距离依赖关系和恢复图像中的详细信息方面面临显著挑战。文中提出了一种轻量级双边语义分割网络,称为双边注意力融合网络(BAFNet),以高效地分割高分辨率城市遥感图像。该模型由两条路径组成,即依赖路径和远-局部路径。依赖路径利用大核注意力来获取图像中的长距离依赖关系
。此外,多尺度局部注意力和高效的远程注意力被设计用来构建远-局部路径
。最后,设计了一个特征聚合模块,以有效利用两条路径的不同特征。在公开的高分辨率城市遥感数据集Vaihingen和Potsdam上测试了所提出的方法,mIoU分别达到了83.20%和86.53%。作为轻量级的语义分割模型,BAFNet不仅在精度上优于先进的轻量级模型,而且在两个数据集上也展示了与非轻量级最先进方法相当的性能,尽管浮点运算差异达十倍,网络参数差异达十五倍。
【Vision Mamba】
[NeurlIPS 2024] Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model
论文链接:https://arxiv.org/pdf/2405.14174
代码链接:https://github.com/YuHengsss/MSVMamba
尽管视觉变换器(ViTs)在各种视觉任务中取得了显著成就,但它们受到二次复杂度的约束。最近,状态空间模型(SSMs)由于其全局感受野和相对于输入长度的线性复杂度而广受关注,展示了在自然语言处理和计算机视觉等领域的巨大潜力。为了提高SSMs在视觉任务中的性能,广泛采用多扫描策略
,这导致了SSMs的显著冗余。为了在效率和性能之间取得更好的平衡,作者分析了多扫描策略成功背后的原因
,其中长距离依赖关系起着重要作用。基于这些分析,引入了多尺度视觉Mamba(MSVMamba),以有限的参数保持SSMs在视觉任务中的优势。它在原始和下采样的特征图上采用多尺度2D扫描技术,这不仅有利于长距离依赖学习,还减少了计算成本。此外,集成了卷积前馈网络(ConvFFN)来解决通道混合的不足。实验表明,MSVMamba具有高度竞争力,MSVMamba-Tiny模型在ImageNet上达到了82.8%的top-1准确率,在COCO框架上达到了46.9%的box mAP和42.2%的instance mAP,以及在ADE20K单尺度测试下的47.6% mIoU。