【论文速看】DL最新进展20241003-CNN、图像分割、Vision Mamba

【CNN】

[ECCV 2024 DesNet变体] DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs

论文链接:https://arxiv.org/pdf/2403.19588

代码链接:https://github.com/naver-ai/rdnet

本文重新审视了密集连接卷积网络(DenseNets),揭示了其相对于占主导地位的ResNet风格架构被低估的有效性。作者认为,由于未触及的训练方法和传统设计元素未能充分展示其能力,DenseNets的潜力被忽视了。初步研究表明,通过拼接实现的密集连接非常强大,证明DenseNets可以被重新激活以与现代架构竞争。作者系统地改进了次优组件——架构调整块重新设计改进的训练方案,以加宽DenseNets并提高内存效率,同时保持拼接快捷方式。采用简单架构元素的模型最终超越了Swin Transformer、ConvNeXt和DeiT-III这些残差学习谱系中的关键架构RDNet。此外,所提模型在ImageNet-1K上表现出接近最先进的性能,与最新的模型以及下游任务ADE20k语义分割和COCO目标检测/实例分割竞争。最后提供了经验分析,揭示了拼接快捷方式相对于加性快捷方式的优点,引导人们重新倾向于DenseNet风格的设计。

在这里插入图片描述


【图像分割】

[2024 无监督分割一切] Segment Anything without Supervision

论文链接:

代码链接:https://github.com/frank-xwang/UnSAM

分割万物模型(SAM)需要劳动密集型的数据标注。文中提出了一种无需人工标注的可提示和自动全图分割的无监督SAMUnSAM)。UnSAM利用分而治之的策略来“发现”视觉场景的层次结构。首先利用自上而下的聚类方法将未标记的图像分割成实例/语义级别的片段。对于片段内的所有像素,采用自下而上的聚类方法迭代地将它们合并成更大的组,从而形成层次结构。然后,这些无监督的多粒度掩码被用于监督模型训练。在七个流行数据集上进行评估,UnSAM达到了与有监督对应物SAM相竞争的结果,并在无监督分割方面以11%的AR超过了之前的最先进水平。此外,还展示了有监督的SAM也可以从所提的自监督标签中受益。通过将无监督伪掩码整合到SA-1B的真实掩码中,并且仅使用1%的SA-1B数据训练UnSAM,轻量级的半监督UnSAM通常可以分割出有监督SAM忽略的实体,在SA-1B上以超过6.7%的AR和3.9%的AP超越了SAM。
在这里插入图片描述


[2024] BAFNet: Bilateral Attention Fusion Network for Lightweight Semantic Segmentation of Urban Remote Sensing Images

论文链接:https://arxiv.org/pdf/2409.10269

代码链接:无

大规模语义分割网络通常能取得高性能,但当面对有限的样本大小和计算资源时,其应用可能具有挑战性。在受限的网络规模和计算复杂度场景下,模型在捕捉长距离依赖关系和恢复图像中的详细信息方面面临显著挑战。文中提出了一种轻量级双边语义分割网络,称为双边注意力融合网络(BAFNet),以高效地分割高分辨率城市遥感图像。该模型由两条路径组成,即依赖路径和远-局部路径。依赖路径利用大核注意力来获取图像中的长距离依赖关系。此外,多尺度局部注意力和高效的远程注意力被设计用来构建远-局部路径。最后,设计了一个特征聚合模块,以有效利用两条路径的不同特征。在公开的高分辨率城市遥感数据集Vaihingen和Potsdam上测试了所提出的方法,mIoU分别达到了83.20%和86.53%。作为轻量级的语义分割模型,BAFNet不仅在精度上优于先进的轻量级模型,而且在两个数据集上也展示了与非轻量级最先进方法相当的性能,尽管浮点运算差异达十倍,网络参数差异达十五倍。

在这里插入图片描述


【Vision Mamba】

[NeurlIPS 2024] Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model

论文链接:https://arxiv.org/pdf/2405.14174

代码链接:https://github.com/YuHengsss/MSVMamba

尽管视觉变换器(ViTs)在各种视觉任务中取得了显著成就,但它们受到二次复杂度的约束。最近,状态空间模型(SSMs)由于其全局感受野和相对于输入长度的线性复杂度而广受关注,展示了在自然语言处理和计算机视觉等领域的巨大潜力。为了提高SSMs在视觉任务中的性能,广泛采用多扫描策略,这导致了SSMs的显著冗余。为了在效率和性能之间取得更好的平衡,作者分析了多扫描策略成功背后的原因,其中长距离依赖关系起着重要作用。基于这些分析,引入了多尺度视觉Mamba(MSVMamba),以有限的参数保持SSMs在视觉任务中的优势。它在原始和下采样的特征图上采用多尺度2D扫描技术,这不仅有利于长距离依赖学习,还减少了计算成本。此外,集成了卷积前馈网络(ConvFFN)来解决通道混合的不足。实验表明,MSVMamba具有高度竞争力,MSVMamba-Tiny模型在ImageNet上达到了82.8%的top-1准确率,在COCO框架上达到了46.9%的box mAP和42.2%的instance mAP,以及在ADE20K单尺度测试下的47.6% mIoU。

在这里插入图片描述
在这里插入图片描述


Mamba是一个Python库,主要用于处理医学影像数据,但它本身并不直接提供图像分割功能。通常用于深度学习的医学图像分析,例如Unet等模型来进行分割。如果你想要使用Mamba进行图像分割,你需要结合其他库如TensorFlow、PyTorch或者Medpy等。 下面是一个简单的示例,展示如何使用Mamba(假设已经安装了相关依赖)配合Keras或U-Net模型进行图像分割: ```python # 首先,安装必要的库 !pip install mamba tensorflow medpy import numpy as np from mamba import MambaModel, load_image from keras.models import Model from keras.layers import Input, Conv2D, MaxPooling2D, UpSampling2D, Concatenate # 加载和预处理图像 image = load_image('your_image_path') image = preprocess_image(image) # 定义U-Net模型 input_shape = (image.shape[0], image.shape[1], 1) # 假设输入是灰度图像 inputs = Input(input_shape) encoder = ... # 编码部分,可以包含卷积层和池化层 decoder = ... # 解码部分,包括上采样和并行连接到编码层的输出 outputs = Conv2D(1, kernel_size=1, activation='sigmoid')(decoder) # 输出层 model = Model(inputs=inputs, outputs=outputs) # 编译模型 model.compile(optimizer='adam', loss='binary_crossentropy') # 训练模型 model.fit(x=image, y=np.expand_dims(your_segmentation_mask, -1), epochs=10) # 进行预测 segmentation = model.predict(image) ``` 请注意,这只是一个基本示例,实际应用中需要根据具体的Mamba文档和U-Net架构进行调整。同时,`load_image`函数和`preprocess_image`函数需要你自己定义或找到合适的函数来加载和准备图像数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IRevers

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值