20230328组会总结

【3DV】Robust RGB-D Fusion for Saliency Detection

(1) layer-wise

提出了layer-wise attention(LWA),根据深度图(D)的准确程度,动态确定每层的具体融合策略,越准确的D,应该越早被充分融合,因为他们的轮廓会给予RGB很大的指导

(2) trident spatial, attention mechanisms.

提出trident spatial attention (TSA) 提取更广阔的空间上下文特征,解决了D不对齐的问题

 【ICLR2023】More ConvNets in the 2020s: Scaling up Kernels Beyond 51 × 51 using Sparsity

(1) RepLKNet 通过结构重新参数化技术成功地将卷积扩展到 31×31,同时使得模型获得了和 Swin Transformer 相当的性能。SLaK通过将一个大的正方形卷积划分为两个并行的长方形卷积,通过合理的划分改善了大卷积核不能保持局部特性的缺陷,做出了51*51的更大的卷积核。

(2)使用了动态稀疏,动态稀疏化技术是一种从头开始训练稀疏神经网络的技术。后训练剪枝 (post-training pruning) 一般是指先训练好一个密集的大模型,再对其参数进行剪枝。但在动态稀疏化中,模型从一开始就是稀疏的,训练和推理的 FLOPs 以及内存的需求只是密集模型的一小部分。参数修剪和增长方案允许模型的稀疏结构逐渐进化,获得比训练静态稀疏网络更好的性能。

 【TMM2023】Bridging Component Learning with Degradation Modelling for Blind Image Super-Resolution

(1)从图像本质成分的角度去重新分析了退化过程,并且提出了一个成分分解和协同优化网络CDCN来联系图像成分学习和退化模型。

(2)通过细节-结构相互协作模块来利用图像结构分量和细节分量的交互,从而实现两个分量的协同优化,在保证性能的同时解决了迭代网络架构复杂度高的问题。

 

 【TGRS2023】Language-Aware Domain Generalization Network for Cross-Scene Hyperspectral Image Classification

提出语言感知域泛化网络(LDGnet),将文本提供的先验知识作为域不变信息,构建image-text pairs并提取嵌入特征,通过视觉-语言对齐的方式,实现领域泛化。LDGnet首次在高光谱图像中引入了语言模态,实现视觉语言多模态表征,构建遥感先验嵌入新范式。

 

 【ARXIV2301】Rethinking Mobile Block for Efficient Neural Models

 (1)结合 Transformer 中的多头注意力机制 (MHSA) 和 FFN 模块以及 MobileNet-v2中的倒残差模块 (Inverted Residual Block, IRB),引入了一种 Meta Mobile Block

(2) 提出了反向残差移动块iRMB,用MHSA提取全局特征,用卷积提取局部特征。

【ARXIV2301】Image Super-Resolution using Efficient Striped Window Transformer

 (1)设计了一个高效的转换层(ETL),为所提出的高效条形窗口Transformer(ESWT)提供了一个简洁的结构,避免了多余操作。

(2)提出了一种条纹窗口机制和灵活窗口训练策略,它可以更有效地建模长期依赖关系,计算复杂度较低。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值