论文题目:
CTformer:用于低剂量CT去噪的无卷积Token2Token扩展视觉变压器
这篇论文主要研究了一种用于低剂量计算机断层扫描(LDCT)图像去噪的新型变换器模型,称为CTformer。
论文地址:https://arxiv.org/abs/2202.13517
项目地址:https://github.com/wdayang/ctformer
项目已复现,项目有些比如patch num 是写死的,如果想要更改patchsize 这类参数会报错,要自己计算num 然后去网络里修改
摘要
低剂量计算机断层扫描(LDCT)去噪是CT研究中的一个重要问题。与正常剂量CT(NDCT)图像相比,LDCT图像在临床应用中会受到严重的噪声和伪影的影响。最近的许多研究表明,视觉变换器在特征表示能力上优于卷积神经网络(CNN)。然而,与CNN不同,视觉变换器在LDCT去噪方面的潜力至今尚未得到充分探索。为了填补这一空白,我们提出了一种无需卷积的Token2Token扩张视觉变换器(CTformer)用于低剂量CT去噪。CTformer使用更强大的Token重排来包含局部上下文信息,从而避免使用卷积。它还通过扩张和移动特征图来捕获更长距离的交互。我们通过静态检查其内部注意力图的模式和动态追踪层次化的注意力流来解释CTformer。此外,引入了一种重叠推理机制,有效消除了编码器-解码器基础去噪模型常见的边界伪影。在Mayo LDCT数据集上的实验结果表明,CTformer在计算开销较低的情况下,超越了现有的最先进去噪方法。
1. 引言
- 论文首先介绍了低剂量CT(LDCT)去噪的重要性,与传统剂量CT(NDCT)相比,LDCT图像受到严重的噪声和伪影影响。
- 作者指出,尽管卷积神经网络(CNN)在LDCT图像去噪方面取得了一定的进展,但它们在捕捉图像中的长距离上下文信息方面存在局限性。
-
2. 相关工作
- 论文回顾了LDCT去噪领域的传统算法和基于CNN的方法,指出了它们的优缺点。
-
3. 方法
A. CTformer架构
- 整体结构:CTformer采用残差编码器-解码器结构,包含Token化/Detoken化块、四个不同尺寸特征图的CTformer模块和一个中间变换器块。
-
- Token化块:将噪声CT图像转换为一系列二维块(Tokens)。
- 变换器块(TB):包含多头注意力(MHA)、层归一化(LN)、MLP和残差连接。
- Token2Token Dilation块(T2TD):使用级联Token化代替简单Token化,通过重塑和展开操作来增强局部信息的表达能力。
B. CTformer推理
- 由于变换器模型在推理时只能逐块处理图像,作者提出了一种重叠推理方法来解决编码器-解码器架构中常见的边界伪影问题。
C. CTformer的可解释性
- 利用变换器模型中的自注意力模块,作者开发了一种可解释性分析方法,通过可视化注意力图和构建解释性图来揭示CTformer如何处理重要结构和噪声。
4. 实验
- 论文使用了公开的Mayo LDCT数据集进行训练和评估,并展示了CTformer在去噪性能和模型效率方面优于其他最先进方法的结果。
5. 消融研究
- 作者进行了消融实验来研究T2TD块、循环移位操作和中间变换器块数量对模型性能的影响。
6. 结论
- 论文总结了CTformer作为一种新型的无卷积变换器模型在LDCT去噪方面的贡献,并提出了未来的研究方向