【组会整理及心得】X-Pool、TransCeption、HiFormer、Cross Teaching between CNN and Transformer、CiaoSR、UHDFour

【CVPR2022】X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

【组会讲解链接】

https://zhuanlan.zhihu.com/p/608289445

【心得体会】

本文主要是对视频进行处理,但本文提出的工作也可以尝试运用到高光谱图像的处理中。

【ARXIV2301】Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale Feature Fusion Approach

【组会讲解链接】

https://zhuanlan.zhihu.com/p/607135861

【心得体会】

本文是一篇通过多尺度来改进Transformer的医学图像领域的文章,在深度学习与多学科交叉应用的场景中,需要针对场景的特点来改进网络结构,准确率和效率都要考虑到。

【WACV2023】HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

【本文贡献】
  • 提出了一种新的混合方法,融合了Transformer的远程上下文交互和CNN的局部语义信息。

  • 设计了一种DLF模块,可以在粗粒度和细粒度特征表示之间建立有效的特征融合。

【网络结构】

使用Swin transformer模块和基于CNN的encoder设计了两种多尺度特征表示,为了确保全局和局部特征的精细融合,在encoder-decoder结构的跳转连接部分中添加了了DLF模块。

(b)展示的是DLF模块中的Cross Attention结构,小级别的类标记CLSs首先被用于维度对齐,然后追加到pl,结果嵌入作为k和v,然后再利用CLS进行查询,最后计算注意力和反投影,得到Zs,这个过程也可以扩展到更大的尺度。

【心得体会】

当网络中的特征来自多个level,如本文的CNN级别和Transformer级别时,需要注意这些特征的合理融合,保证特征的一致性。

【MIDL2022】Semi-Supervised Medical Image Segmentation via Cross Teaching between CNN and Transformer

【本文贡献】

提出了一种简单有效的半监督医学图像分割cross teaching scheme。

【网络结构】
【心得体会】

CNN可以有效地捕捉局部特征,Transformer可以更好地建模长期关系,这些特征和关系在训练过程中可以相互补充。

【ARXIV2212】 CiaoSR: Continuous Implicit Attention-in-Attention Network for Arbitrary-Scale Image Super-Resolution

【本文贡献】

提出了一种用于任意尺度图像超分辨率的连续隐性注意网络CiaoSR,该网络具有以下优势:

  1. 可以显式地学习集成权重并能利用尺度感知的非局部信息

  1. 可以灵活地集成到任何主干中,支持任意比例的图像超分辨率,并能提高图像超分辨率的性能

  1. 在尺度内和尺度外分布上都具有良好的泛化能力

【网络结构】
  • 该网络的大致结构是注意力里嵌套一个注意力,外层的注意力是Implicit Attention,主要用于提取查询点对应的局部位置的信息,内层的注意力是Scale-aware Attention,用于提取非局部位置的信息,因此该网络具有更大的感受野。

  • 除此之外,在计算外层注意力的k和v时,还加入了对应的坐标距离,做到了既考虑坐标距离又考虑特征距离。

  • 网络名字中的Continuous是指该网络在训练时使用的是连续的尺度,实验也表明使用连续的尺度训练比使用离散尺度训练效果好。

【心得体会】

注意力套注意力的结构比较新颖,并且具备充足的理论依据,但在保证质量的时候,计算量也会变大,后续的工作可以从计算量方面入手改进。

【ICLR2023】Embedding Fourier for Ultra-High-Definition Low-Light Image Enhancement

【本文贡献】

本文在低光噪声图像的傅里叶域中观察到了两个现象:

  1. 亮度和噪声在傅里叶域中可以在一定程度上分解,亮度表现为振幅,噪声与相位密切相关。

  1. 不同分辨率图像的振幅模式相似。

根据以上现象,本文提出了基于傅里叶变换的图像增强方法UHDFour,在傅里叶域中分别处理亮度和噪声,避免了在增强亮度时放大噪声,并且由于不同分辨率图像的振幅模式相似,可以先在低分辨率区域进行处理,只在高分辨率范围内进行必要的调整,从而节省计算量。

【网络结构】

【心得体会】

进行图像修复工作时,在像素域进行处理的同时,也可以考虑频率域的处理。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值