【论文速看】DL最新进展20240926-图像分割、图像修复、CNN

IRevers

于 2024-09-26 22:30:55 发布

阅读量480

点赞数 8

分类专栏：深度学习进展速看文章标签： cnn 人工智能神经网络深度学习计算机视觉机器学习 transformer

本文链接：https://blog.csdn.net/qq_40734883/article/details/142534925

版权

深度学习进展速看专栏收录该内容

6 篇文章 0 订阅

订阅专栏

【图像分割】

[2024] CAD: Memory Efficient Convolutional Adapter for Segment Anything

论文链接：https://arxiv.org/pdf/2409.15889

代码链接：https://github.com/Kyyle2114/Convolutional-Adapter-for-Segment-Anything

自提出以来，图像分割的基础模型“Segment Anything”（SAM）在各个领域都得到了积极研究。各种研究提出了将SAM适应于特定领域的方法，其中一个显著的方法是添加和训练轻量级的适配器模块。尽管基于适配器的微调方法在参数效率和性能提升方面表现出色，但它们面临一个经常被忽视的问题：与可训练参数数量相比，GPU内存的过度消耗。针对这一问题，本文提出了一种内存高效的并行卷积适配器架构。该架构与SAM的图像编码器并行连接，消除了在模型训练过程中存储图像编码器的激活值和梯度的需求。提出的架构在使用不到SAM Adapter一半的GPU内存的情况下，展示了具有竞争力的实验结果，表明其在硬件限制阻碍基于适配器的学习时，作为简单解码器微调的替代方案具有重要价值。

在这里插入图片描述

[2024] LSSF-Net: Lightweight Segmentation with Self-Awareness, Spatial Attention, and Focal
Modulation

论文链接：https://arxiv.org/pdf/2409.01572

代码链接：无

在皮肤镜图像中准确分割皮肤病变对于及时识别皮肤癌在移动平台上的计算机辅助诊断至关重要。然而，病变形状多变、边缘不清晰以及存在头发丝和标记颜色等障碍物使得这一挑战更加复杂。此外，皮肤病变通常表现出与周围健康皮肤难以区分的细微纹理和颜色变化，这需要模型能够捕捉到精细的细节和更广泛的上下文信息。目前，黑色素瘤分割模型通常基于全连接网络和U-Nets。然而，这些模型常常难以捕捉皮肤病变的复杂和多变特征，如不清晰的边界和多样的病变外观，这可能导致次优的分割。为了解决这些挑战，我们提出了一种专门设计用于在移动设备上进行皮肤病变分割的新型轻量级网络，其可学习参数数量极少（仅0.8百万）。该网络包括一个编码器-解码器架构，结合了基于Transformer的焦点调制注意力、自感知局部和全局空间注意力以及通道拆分洗牌。我们的模型在四个公认的皮肤病变分割基准数据集上的有效性得到了评估：ISIC 2016、ISIC 2017、ISIC 2018和PH2。实证结果证明了它的先进性能，尤其是在高Jaccard指数上表现突出。

在这里插入图片描述

【图像修复】

[AAAI2024] Omni-Kernel Network for Image Restoration

论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/27907

代码链接：https://github.com/c-yn/OKNet

图像恢复旨在从退化的低质量观测中重建高质量图像。最近，Transformer模型在图像恢复任务上取得了令人瞩目的性能，这归功于它们强大的建模长距离依赖关系的能力。然而，随着输入尺寸的增大，其计算复杂度呈二次方增长，使得它们不适用于实际应用。文中通过增强多尺度表征学习开发了一种高效的卷积网络用于图像恢复。为此，文中提出了一个全核模块，该模块由三个分支组成，即全局、大范围和局部分支，以高效学习全局到局部的特征表示。具体来说，全局分支通过双域通道注意力和频率门控机制实现全局感知场。此外，为了提供多粒度的感知场，大范围分支通过不同形状的深度卷积以及异常大的核尺寸来实现。此外，还使用逐点深度卷积补充局部信息。最后，通过将全核模块插入瓶颈位置以提高计算效率，建立了所提出的网络，命名为OKNet。广泛的实验表明，所提网络在11个基准数据集上实现了最先进的性能，包括图像去雾、图像去雪和图像去模糊这三个代表性的图像恢复任务。

在这里插入图片描述

[CVPR 2024] Bracketing Image Restoration and Enhancement with High-Low Frequency Decomposition

研究机构：西北工业大学

论文链接：https://arxiv.org/pdf/2404.13537

代码链接：https://github.com/chengeng0613/HLNet

在现实世界中，由于一系列图像退化问题，获得高质量、清晰的内容照片是具有挑战性的。尽管在合成高质量图像方面取得了显著进展，但以往用于图像恢复和增强的方法往往忽视了不同退化的特点。它们应用相同的结构来处理不同类型的退化，导致恢复效果不尽如人意。受到高/低频信息适用于不同退化这一概念的启发，文中引入了基于高低频率分解的HLNet方法，这是一种框架式图像恢复与增强方法。具体来说，采用两个模块进行特征提取：共享权重模块和非共享权重模块。在共享权重模块中，使用SCConv从不同的退化中提取共性特征。在非共享权重模块中，引入了高低频率分解块（HLFDB），它采用不同的方法来处理高频和低频信息，使模型能够更有效地应对不同的退化。与其他网络相比，所提方法考虑了不同退化的特点，从而实现了更高质量的图像恢复。

在这里插入图片描述

【CNN】

[ECCV 2024] Wavelet Convolutions for Large Receptive Fields

论文链接：https://arxiv.org/pdf/2407.05848

代码链接：https://github.com/BGU-CS-VIL/WTConv

近年来，人们尝试增加卷积神经网络（CNNs）的核大小，以模仿视觉Transformers（ViTs）自注意力块的全局感受野。然而，这种方法很快达到了一个上限，并且在实现全局感受野之前就已经饱和了。这项工作展示了通过利用小波变换（WT），实际上可以在不遭受过参数化的情况下获得非常大的感受野，例如，对于一个 $k \times k$ 的感受野，所提出方法中的可训练参数数量仅随k对数增长。所提出的层，名为WTConv，可以作为现有架构的即插即用替代品，带来有效的多频率响应，并且随着感受野大小的扩大而优雅地扩展。在图像分类任务中的ConvNeXt和MobileNetV2架构内展示了WTConv层的有效性，以及用于下游任务的主干，并展示了它带来的额外属性，如对图像损坏的鲁棒性以及对形状而非纹理的增强响应。