【论文速看】DL最新进展20241013-图像超分、去噪、Transformer

IRevers

已于 2024-10-13 21:47:32 修改

阅读量1.1k

点赞数 21

分类专栏：深度学习进展速看文章标签： transformer 深度学习人工智能神经网络图像处理计算机视觉

于 2024-10-13 21:36:55 首次发布

本文链接：https://blog.csdn.net/qq_40734883/article/details/142895330

版权

深度学习进展速看专栏收录该内容

52 篇文章

订阅专栏

【图像超分、去噪】

[ACM MM 2024] GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution

论文链接：https://arxiv.org/pdf/2408.07484

代码链接：https://github.com/sisrformer/GRFormer

先前的研究表明，减少基于Transformer的单图像超分辨率（SISR）模型（例如SwinIR）的参数开销和计算量通常会导致性能下降。本文提出了GRFormer，一种高效且轻量级的方法，不仅减少了参数开销和计算量，还大大提高了性能。GRFormer的核心是分组残差自注意力（GRSA），专门针对两个基本组件。首先，它引入了一种新颖的分组残差层（GRL），以取代自注意力中的查询、键和值（QKV）线性层，旨在同时有效地减少参数开销、计算量和性能损失。其次，它整合了一个紧凑的指数空间相对位置偏差（ES-RPB），作为原始相对位置偏差的替代，以提高表示位置信息的能力，同时进一步最小化参数数量。广泛的实验结果表明，GRFormer在 $\times 2$ 、 $\times 3$ 和 $\times 4$ SISR任务上超越了最先进的基于Transformer的方法，特别是在DIV2K数据集上训练时，最大PSNR比SOTA高出0.23dB，同时仅在自我注意力模块中分别将参数数量和MACs减少了约60%和49%。

在这里插入图片描述

[2024] CasDyF-Net: Image Dehazing via Cascaded Dynamic Filters

论文链接：https://arxiv.org/pdf/2409.08510

代码链接：https://github.com/dauing/CasDyF-Net

图像去雾旨在通过减少大气散射和吸收效应来恢复图像清晰度和视觉质量。尽管深度学习在这一领域取得了显著进展，但越来越多的方法受到网络深度的限制。因此，许多方法采用了并行分支策略。然而，它们通常优先考虑分辨率、感受野或频域分割，而没有根据输入特征的分布动态地划分分支。受动态滤波的启发，本文提出了使用级联动态滤波器来创建一个多分支网络，根据特征图分布动态生成滤波器核。为了更好地处理分支特征，作者提出了一个残差多尺度块（RMB），结合不同的感受野。此外，还引入了一种基于动态卷积的局部融合方法，用于合并相邻分支的特征。在RESIDE、Haze4K和OHaze数据集上的实验验证了该方法的有效性，所提模型在RESIDE-Indoor数据集上达到了43.21dB的PSNR。

在这里插入图片描述

【Transformer】

[轻量级ViT] SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design

论文链接：https://arxiv.org/pdf/2401.16456

代码链接：https://github.com/ysj9909/SHViT

最近，高效的视觉Transformer在资源受限的设备上表现出了低延迟的优异性能。传统上，它们使用 $4 \times 4$ 的patch嵌入和宏观层面的4阶段结构，同时在微观层面利用复杂的多头注意力配置。本文旨在```以内存高效的方式解决所有设计层次上的计算冗余问题``。作者发现，使用大跨度的补丁不仅减少了内存访问成本，而且通过利用从早期阶段减少空间冗余的token表示，实现了具有竞争力的性能。此外，初步分析表明，早期阶段的注意力层可以用卷积来替代，而后期阶段的多个注意力头在计算上是冗余的。为了处理这个问题，引入了一个单头注意力模块，它本质上防止了头的冗余，并通过并行结合全局和局部信息同时提高了准确性。基于该解决方案，引入了SHViT，一个单头视觉Transformer，获得了最佳的速度-准确性权衡。例如，在ImageNet-1k上，我们的SHViT-S4分别比MobileViTv2 ×1.0在GPU、CPU和iPhone12移动设备上快3.3倍、8.1倍和2.4倍，同时准确率高出1.3%。对于在MS COCO上使用Mask RCNN头部进行目标检测和实例分割，该模型在GPU和移动设备上分别表现出比FastViT-SA12低3.8倍和2.0倍的主干延迟，同时性能相当。

在这里插入图片描述

[2024 选择性注意力] Selective Attention Improves Transformer

机构：谷歌

论文链接：https://arxiv.org/pdf/2410.02703

注意力机制中不需要的元素会降低性能。作者引入了选择性注意力，这是对标准注意力机制的简单无参数更改，可以减少对不需要元素的注意力。选择性注意力在各种模型大小和上下文长度下提高了语言建模性能。例如，一系列使用语言建模目标在C4上训练的Transformer，在使用选择性注意力时，其性能相当于在其注意力模块中使用约2倍更多头和参数的标准Transformer。选择性注意力还允许减少注意力上下文缓冲区的大小，从而在推理过程中显著降低内存和计算需求。例如，在C4上训练的具有100M参数的Transformer，当上下文大小分别为512、1,024和2,048时，如果配备了选择性注意力，与没有选择性注意力但具有相同验证困惑度的Transformer相比，其注意力模块分别需要少16倍、25倍和47倍的内存。