【组会整理及心得】RFnet(LWA+TSA)、SLaK、CDCN、LDGnet、EMO、ESWT

RFnet(LWA+TSA)——【3DV】Robust RGB-D Fusion for Saliency Detection

【本文贡献】
  1. 研究了 RGB-D 融合在现实环境中的问题,突出了两个主要问题,即深度图质量低、深度图和RGB图不对齐,以实现准确的显著性检测。

  1. 引入了一种新的分层注意(LWA)来自动调整不同层的深度贡献,并学习早期和晚期融合相对于深度质量的最佳权衡。

  1. 设计了一个三叉空间注意力 (TSA),通过聚合来自更广泛空间上下文的特征来更好地利用未对齐的深度信息。

【网络结构】

本文提出的RFnet网络主要由分层注意LWA和自适应注意融合AF组成,LWA的目标是根据深度图质量找到早期和晚期融合的最佳折衷,AF利用跨通道线索来计算具有通道注意和三叉空间注意TSA的共享表征

LWA以成对的RGB和深度低层特征图作为输入,即来自第一层R1和D1的特征,并输出置信度λi来调整第i阶段融合的深度贡献,利用非本地注意力来实现双向互动,经过交叉校准的特征被合并在一起并被馈送到MLP中以对深度贡献进行建模,绿色虚线通过残差相加减少梯度消失。

AF主要针对的是深度图和RGB图特征不对齐的问题,主要结构是三叉注意力TSA,先对输入沿着通道做最大池化和平均池化,维度从C*H*W变为2*H*W,在使用3个膨胀率不同的卷积进行处理得到1*H*W的SA权重图

【心得体会】

TSA部分和多尺度类似,本文可以看作是将多尺度运用到注意力中的一个尝试,或许可以在图像超分相关工作中使用类似的思路进行处理

SLaK——【ICLR2023】More ConvNets in the 2020s: Scaling up Kernels Beyond 51 × 51 using Sparsity

【本文贡献】
  1. 探索了人类系统中常见的稀疏性问题,以此说明了构造大核卷积、提高大核卷积的性能的一些要点。

  1. 提出了稀疏大内核网络SLaK,这是内核大小为51×51的新型纯CNN架构。

【网络结构】

本文是在RepLKNet基础上的进一步探索,RepLKNet成功地将内核大小扩展到31×31并提高了性能,但与Swin Transformer等高级VITS的扩展趋势相比,随着内核大小的不断增长,性能开始饱和,因此本文探索了训练大于31*31的极值卷积的可能性,并测试了是否可以通过策略性地扩大卷积来消除性能差距。

SLaK通过将一个大的正方形卷积划分为两个并行的长方形卷积,通过合理的划分改善了大卷积核不能保持局部特性的缺陷,做出了51*51的更大的卷积核。

除此之外,考虑到大卷积核需要的稀疏性,此处使用了动态稀疏(Dynamic sparsity),从头开始构建和训练最初的稀疏神经网络(稀疏核)。在训练过程中,它通过剪枝最不重要的权值并添加新的权值来动态调整稀疏权值。这种动态过程逐渐将稀疏核函数优化为良好的模式,从而鼓励更精细地捕获局部特征。

【心得体会】

大卷积核在对输入图像进行下采样的时候能够有效减少参数量,可以考虑在下采样时加入大卷积核。

CDCN——【TMM2023】Bridging Component Learning with Degradation Modelling for Blind Image Super-Resolution

【本文贡献】
  1. 从图像的内在成分分析了高分辨率图像的退化,并提出了一个组件分解和协同优化网络(CDCN),将盲高分辨率的组件学习和退化建模联系在了一起。

  1. 提出了相互协作块(MCB),利用了图像结构和细节组件之间的关系,实现了协作优化。

  1. 提出了一种降级驱动的学习策略,以联合执行高分辨率图像的细节和结构恢复。

【网络结构】

CDCN由三部分组成:组件分解模块(CDM)、由多个相互协作块(MCB)组成的级联残差组(RG)和多尺度融合模块(MSFM)。

给定尺寸为C*H*W的LR图像ILR,其中C为通道数,H和W为ILR的高度和宽度。我们首先将ILR输入到3*3卷积层中提取浅层特征,作为CDM的输入进行成分分解。在CDM中通过两个单独的特征提取块,直接从浅层特征中学习到对应的特征,从而获得初始细节和结构组件。

相互协作块(MCB)的结构如下图所示,它可以更好地学习图像的结构成分和细节成分,结构成分可以帮助理解上下文信息并找到细节成分的位置,细节成分可以揭示图像中的信息区域,从而帮助结构成分的重建。

除此之外,本文还融入了多尺度融合,将输出特征与结构图特征和细节特征融合起来。

【心得体会】

本文是一个协同优化与多尺度特征融合相结合的工作,今后的图像超分工作可以从特征的分解着手,分别处理结构特征和细节特征,同时保持宏观方面和微观方面的特性。

LDGnet——【TGRS2023】Language-Aware Domain Generalization Network for Cross-Scene Hyperspectral Image Classification

【本文贡献】
  1. 首次提出一种语言制导的HSI分类框架,引入先验知识作为监督信号的语言模式改进了视觉表征学习

  1. 将语言特征组成的语义空间视为跨域共享空间,通过视觉语言对齐将视觉特征投影到语义空间,以最小化跨域的差异

  1. 在语义空间中,设计了粗粒度和细粒度的文本表征,丰富了语义监督信号,促进了领域不变表征学习

【网络结构】

使用类似CLIP的网络作为Image encoder,提取视觉特征,Text encoder提取粗粒度和细粒度的语言特征,形成语义空间,使用有监督对比学习进行视觉-语言对齐,按类别缩小视觉特征和语言特征之间的差距,最后输出视觉通道的分类预测概率。测试阶段,利用image encoder和分类器头对TD中的图像块进行预测

【心得体会】

本文是一个使用语言大模型引导、把先验知识加入模型的工作,随着大模型的发展,可以尝试将大模型与当前工作相结合

EMO——【ARXIV2301】Rethinking Mobile Block for Efficient Neural Models

【本文贡献】
  1. 抽象和分析了一个用于高效模型设计的Meta Mobile Block,其中的范式统一描述了当前有效的模块,即MobileNetv2中的IRB以及Transformer中的MHSA和FFN,从而推断不同的结构实例化决定了具体的建模能力

  1. 在归纳元块的基础上,提出了一种简单有效的面向移动应用的倒残差块模型,并在一系列面向密集应用的反向剩余移动块上构建了一个类似ResNet的高效模型(EMO),该模型仅包含卷积模块和MHSA模块,分别用于模拟短距离依赖和远距离特征交互

【网络结构】

先结合 Transformer 中的多头注意力机制 (MHSA) 和 FFN 模块以及 MobileNet-v2中的倒残差模块 (Inverted Residual Block, IRB),引入了一种 Meta Mobile Block

考虑到Transformer中的MHSA计算消耗大,本文提出了反向残差移动块iRMB,用MHSA提取全局特征,用卷积提取局部特征。

除此之外,本文还定义了高效模型应该满足的标准:

  1. 可用性: 实现简单,不使用复杂的操作符,优化方案比较容易。

  1. 一致性: 尽量少的核心模块,以降低模型的复杂度。

  1. 有效性: 具有良好的分类和密集预测性能。

  1. 高效性: 参数计算量,与精度的权衡。

根据上述标准,本文基于反向残差移动块设计了一个类似ResNet的四阶段高效模型 (EMO)

EMO 仅由iRMB组成,iRMB仅由标准卷积和MHSA组成,由于MHSA更适合为更深层次的语义特征建模,所以本文只在第三阶段和第四阶段使用MHSA

ESWT——【ARXIV2301】Image Super-Resolution using Efficient Striped Window Transformer

【本文贡献】
  1. 设计了一个高效的转换层(ETL),为所提出的高效条形窗口Transformer(ESWT)提供了一个简洁的结构,避免了多余操作。

  1. 提出了一种条纹窗口机制,它可以更有效地建模长期依赖关系,计算复杂度较低。

  1. 提出了一种新的灵活窗口训练策略,在不增加成本的情况下,这种策略可以进一步探索基于Transformer的方法的潜力。

【网络结构】

主要由三个模块组成:浅层特征提取模块SFEM、深层特征提取模块DFEM、SR重构模块SRRM

DFEM由多个ETB连接组成(本文中使用的ETB个数为3),每个ETB由多个ETL和一个卷积层连接组成(本文中使用的ETL个数为6),一个ETL由一个条纹窗口注意力BWSA和一个多层感知机MLP组成

使用了BWSA的空间注意力如下图所示,先使用1*1的卷积加BN计算出Q和V,再使用Q计算注意力矩阵A,通过启用矩阵k来简化模型并加速训练,最后使用1*1卷积将V用A加权,映射到特征空间

除此之外,本文还使用了长依赖建模机制(Long-term Dependency Modeling),将输入特征沿着信道维度平均分割为2个独立的特征,在这2个独立的特征上分别应用条纹局部窗口,它可以在更大的维度上建立窗口内连接,探索更多的上下文信息。除此之外,此处还将两个特征沿着信道维度进行拼接,将1*1卷积用于混合其中的窗口内连接,更有效地模拟了蓝色和橙色位置之间的长期依赖关系。

【心得体会】

条纹窗口机制的使用可以在一定程度上提高网络的性能,并同时减少模型的参数量和运算量。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值