【组会整理及心得】X-Pool、TransCeption、HiFormer、Cross Teaching between CNN and Transformer、CiaoSR、UHDFour

最新推荐文章于 2024-06-19 13:14:37 发布

深蓝与夜的呼吸

最新推荐文章于 2024-06-19 13:14:37 发布

阅读量1.2k

点赞数 1

文章标签：深度学习人工智能神经网络 Powered by 金山文档

本文链接：https://blog.csdn.net/qq_55708326/article/details/129216599

版权

【CVPR2022】X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

【组会讲解链接】

https://zhuanlan.zhihu.com/p/608289445

【心得体会】

本文主要是对视频进行处理，但本文提出的工作也可以尝试运用到高光谱图像的处理中。

【ARXIV2301】Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale Feature Fusion Approach

【组会讲解链接】

https://zhuanlan.zhihu.com/p/607135861

【心得体会】

本文是一篇通过多尺度来改进Transformer的医学图像领域的文章，在深度学习与多学科交叉应用的场景中，需要针对场景的特点来改进网络结构，准确率和效率都要考虑到。

【WACV2023】HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

【本文贡献】

提出了一种新的混合方法，融合了Transformer的远程上下文交互和CNN的局部语义信息。

设计了一种DLF模块，可以在粗粒度和细粒度特征表示之间建立有效的特征融合。

【网络结构】

使用Swin transformer模块和基于CNN的encoder设计了两种多尺度特征表示，为了确保全局和局部特征的精细融合，在encoder-decoder结构的跳转连接部分中添加了了DLF模块。

(b)展示的是DLF模块中的Cross Attention结构，小级别的类标记CLSs首先被用于维度对齐，然后追加到pl，结果嵌入作为k和v，然后再利用CLS进行查询，最后计算注意力和反投影，得到Zs，这个过程也可以扩展到更大的尺度。

【心得体会】

当网络中的特征来自多个level，如本文的CNN级别和Transformer级别时，需要注意这些特征的合理融合，保证特征的一致性。

【MIDL2022】Semi-Supervised Medical Image Segmentation via Cross Teaching between CNN and Transformer

【本文贡献】

提出了一种简单有效的半监督医学图像分割cross teaching scheme。

【网络结构】

【心得体会】

CNN可以有效地捕捉局部特征，Transformer可以更好地建模长期关系，这些特征和关系在训练过程中可以相互补充。

【ARXIV2212】 CiaoSR: Continuous Implicit Attention-in-Attention Network for Arbitrary-Scale Image Super-Resolution

【本文贡献】

提出了一种用于任意尺度图像超分辨率的连续隐性注意网络CiaoSR，该网络具有以下优势：

可以显式地学习集成权重并能利用尺度感知的非局部信息

可以灵活地集成到任何主干中，支持任意比例的图像超分辨率，并能提高图像超分辨率的性能

在尺度内和尺度外分布上都具有良好的泛化能力

【网络结构】

该网络的大致结构是注意力里嵌套一个注意力，外层的注意力是Implicit Attention，主要用于提取查询点对应的局部位置的信息，内层的注意力是Scale-aware Attention，用于提取非局部位置的信息，因此该网络具有更大的感受野。

除此之外，在计算外层注意力的k和v时，还加入了对应的坐标距离，做到了既考虑坐标距离又考虑特征距离。

网络名字中的Continuous是指该网络在训练时使用的是连续的尺度，实验也表明使用连续的尺度训练比使用离散尺度训练效果好。

【心得体会】

注意力套注意力的结构比较新颖，并且具备充足的理论依据，但在保证质量的时候，计算量也会变大，后续的工作可以从计算量方面入手改进。

【ICLR2023】Embedding Fourier for Ultra-High-Definition Low-Light Image Enhancement

【本文贡献】

本文在低光噪声图像的傅里叶域中观察到了两个现象：

亮度和噪声在傅里叶域中可以在一定程度上分解，亮度表现为振幅，噪声与相位密切相关。

不同分辨率图像的振幅模式相似。

根据以上现象，本文提出了基于傅里叶变换的图像增强方法UHDFour，在傅里叶域中分别处理亮度和噪声，避免了在增强亮度时放大噪声，并且由于不同分辨率图像的振幅模式相似，可以先在低分辨率区域进行处理，只在高分辨率范围内进行必要的调整，从而节省计算量。

【网络结构】

【心得体会】

进行图像修复工作时，在像素域进行处理的同时，也可以考虑频率域的处理。

深蓝与夜的呼吸

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【组会整理及心得】X-Pool、TransCeption、HiFormer、Cross Teaching between CNN and Transformer、CiaoSR、UHDFour

X-Pool、TransCeption、HiFormer、Cross Teaching between CNN and Transformer、CiaoSR、UHDFour
复制链接

扫一扫