11.MUVF-YOLOX: A Multi-modal Ultrasound Video Fusion Network for Renal Tumor Diagnosis
Li J, Huang H, Ni D, et al. MUVF-YOLOX: A Multi-modal Ultrasound Video Fusion Network for Renal Tumor Diagnosis[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 642-651.【开放源码】
这篇文章提出多模态超声视频融合网络,设计了基于注意力的多模态融合模块,使用交叉注意力和自注意力并行提取模态不变特征和模态特定特征。此外,还设计了一个对象级时间聚合(OTA)模块,可以自动过滤低质量特征并有效地集成来自多个帧的时间信息用于肾肿瘤诊断。
该框架可分为两个阶段:单帧检测阶段和基于视频的诊断阶段。
(1) 在单帧检测阶段:
- 网络预测多模态CEUS视频剪辑中每一帧的肿瘤边界框和类别。
- 采用双分支主干网络从两个模态中提取特征,随后使用AMF模块融合这些特征。
- 在诊断过程中,经验丰富的放射科医生通常会考虑超声图像的全局特征。因此,将YOLOX的主干网络从CSP-Darknet修改为Swin-Transformer-Tiny,这凭借其全局建模能力是一个更合适的选择。
(2) 在基于视频的诊断阶段:
- 网络根据单帧检测结果自动选择每帧的高置信度区域特征,并执行时间聚合以输出更准确的诊断。
上述两个阶段是连续训练的。首先,进行强大的数据增强来对网络进行单帧的肿瘤检测和分类训练。之后,将第一阶段模型切换为评估模式并预测视频剪辑中每帧的标签。最后,训练OTA模块以聚合时间信息,实现精确诊断。
AMF模块:交叉注意力和自注意力分别获取融合特征和各自模态特征,最后进行特征拼接。
F invar = Softmax ( Q B K C T d ) V C + Softmax ( Q C K B T d ) V B F B − spec = Softmax ( Q B K B T d ) V B + F B F C − spec = Softmax ( Q C K C T d ) V C + F C F A M F = Concat ( F B − spec , F invar , F C − spec ) \begin{array}{c} F_{\text {invar }}=\operatorname{Softmax}\left(\frac{Q_{B} K_{C}^{T}}{\sqrt{d}}\right) V_{C}+\operatorname{Softmax}\left(\frac{Q_{C} K_{B}^{T}}{\sqrt{d}}\right) V_{B} \\ F_{B-\text { spec }}=\operatorname{Softmax}\left(\frac{Q_{B} K_{B}^{T}}{\sqrt{d}}\right) V_{B}+F_{B} \\ F_{C-\text { spec }}=\operatorname{Softmax}\left(\frac{Q_{C} K_{C}^{T}}{\sqrt{d}}\right) V_{C}+F_{C} \\ F_{A M F}=\text { Concat }\left(F_{B-\text { spec }}, F_{\text {invar }}, F_{C-\text { spec }}\right) \end{array} Finvar =Softmax(dQBKCT)VC+Softmax(dQCKBT)VBFB− spec =Softmax(dQBKBT)VB+FBFC− spec =Softmax(dQCKCT)VC+FCFAMF= Concat (FB− spec ,Finvar ,FC− spec )
**OTA模块:**使用改造的YOLOX进行目标检测,根据置信度得分选择预测网格上的前750个网格单元。然后,通过非最大值抑制算法选择前750个网格单元中的30个,以减少冗余。最后根据前30个格网像元的位置从Cls_conv和Reg_conv图层中拾取要素,最按时间注意力聚集时间维度中的特征。
ablation study中值得注意的点:
在单帧检测中,研究发现使用Swin-Transformer作为YOLOX的主干网络可以提高性能并减少参数数量。此外,研究还发现使用双注意力机制(交叉注意力和自我注意力)优于单一注意力机制,但串联这两种注意力模块会降低性能。因此,并行结合这两种注意力模块是更好的选择。这些发现对于多模态超声视频中的肾肿瘤检测具有重要意义。
在多模态超声视频中,利用OTA模块进行基于视频的诊断可以通过捕获连续帧间的信息来提高肾肿瘤的诊断准确性。采用较长的视频片段可以获得更全面的肿瘤特征,进而提高诊断性能。
12.Pathology-and-Genomics Multimodal Transformer for Survival Outcome Prediction
Ding K, Zhou M, Metaxas D N, et al. Pathology-and-genomics multimodal transformer for survival outcome prediction[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 622-631.[开放源码]
提出了一个名为PathOmics的多模态transformer ,该transformer 整合病理学和基因组学信息,以预测结肠癌患者的生存结果。通过无监督的预训练,模型能够捕获WSI图像与各种基因组数据之间的内在关系。经过预训练后,模型可以通过微调来适应多模态和单模态数据。
13. Unpaired Cross-modal Interaction Learning for COVID-19 Segmentation on Limited CT images
Guan Q, Xie Y, Yang B, et al. Unpaired Cross-Modal Interaction Learning for COVID-19 Segmentation on Limited CT Images[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 603-613.【开放源码】
本文提出了一种利用大量未配对的胸部X光图像作为补偿手段,以解决标注CT图像数据稀缺的问题,旨在学习鲁棒性强的表示以实现准确的COVID-19肺部感染区域分割。文中设计了一个名为Unpaired Cross-modal Interaction (UCI)的学习框架,该框架包含一个多模态编码器、一个知识凝聚(KC)和知识引导交互(KI)模块,以及用于最终预测的任务特定网络。文中还提出了一个创新的原型学习策略,该策略通过凝聚模态特定的知识并将其传递给KI模块,以促进跨模态数据之间的信息交互学习,从而捕捉关键特征和关系,并增强UCI对COVID-19肺部感染区域分割的表示能力。在公开的COVID-19分割基准上的实验结果表明,UCI加上胸部X光图像的融合能够显著提高分割性能,优于先进的分割方法,包括nnUNet、CoTr、nnFormer和SwinUNETR。
Knowledge Condensation:首先需要构建一个多模态编码器,该编码器能够从CT扫描和X射线图像中提取出特征表示。然后,这些特征表示将被送入知识压缩模块,该模块将通过一些技术手段(如自注意力机制)来比较不同模态的特征表示之间的相似性或相关性。最后,通过知识引导交互模块,将来自不同模态的特征进行融合,以实现跨模态交互。由于从不同病人的CT和X Ray中学习特征关系较难,本文引入动量更新的原型学习策略。它通过更新原型(prototype)的动量(momentum),来加速知识的学习过程。原型是数据集中类别或概念的代表,通过计算与每个数据点的距离来衡量数据点与原型之间的相似性。对不同模态的数据进行知识压缩。通过计算不同模态数据点与原型的距离,可以衡量不同模态数据点之间的相似性,从而进行知识迁移和共享。同时,利用momentum-updated prototype learning strategy可以加速知识的学习过程,提高模型的泛化能力和鲁棒性。
Knowledge-Guided Interaction:用于非配对的跨模态学习,接受来自一个模态的已学习的原型和来自另一个模态的特征作为输入。KI模块包含两个多头注意力(MHA)块。以CT特征f ct和X射线原型Pcxr作为输入为例,第一个块将Pcxr视为查询并将减少的f ct视为键和值来进行注意力分配。然后,它将X射线原型Pcxr和注意力分配后的CT特征f’ct合并成一个新的表示,以提供给后续任务特定的网络进行最终预测。因此,KI模块通过将来自不同模态的特征进行注意力分配和合并,实现了跨模态学习。
效果:
14.Incomplete Multimodal Learning for Visual Acuity Prediction After Cataract Surgery Using Masked Self-Attention
Zhou Q, Zou H, Jiang H, et al. Incomplete Multimodal Learning for Visual Acuity Prediction After Cataract Surgery Using Masked Self-Attention[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 735-744.【开放源码】
本文提出了一种基于Transformer和注意力机制的框架,用于预测白内障患者的术后最佳矫正视力(BCVA)。该方法融合了术前图像和患者人口统计数据等多模态信息,从而提高了预测的准确性。此外,针对数据中可能存在的模态缺失问题,框架采用了注意力掩码机制来提高鲁棒性。在1960名患者的数据集上进行了实验,结果表明该方法优于其他方法,预测误差在±0.10 logMAR以内的比例为94.3%。
本文采用注意力掩码机制应对缺失模态问题,排除缺失模态与可用模态之间相互作用的方法。具体来说,它通过在自注意力机制中添加注意力掩码,将缺失模态的数据对应的注意力权重置为0,从而避免模型在训练过程中对缺失模态的数据进行错误的学习和利用。
Attn M a s k ( Q , K , V ) = softmax ( Q K T d z + M ) V \operatorname{Attn}_{M a s k}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{z}}}+M\right) V AttnMask(Q,K,V)=softmax(dzQKT+M)V
15.CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training
You K, Gu J, Ham J, et al. CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 101-111.【即将开放源码】
本文提出了一种解决医疗领域数据稀缺问题的方法,通过将图像标签扩展为图像文本对,利用常规prompts和多个图像以及多个放射报告中的多个部分,设计两种对比损失函数,分别命名为ICL和TCL,用于学习医学图像和报告的研究级特征。实验结果表明,该模型优于在相同条件下训练的当前最佳模型,同时扩大数据集可以提高预训练模型的分类辨别能力,但会牺牲检索性能。该方法可用于医疗图像和报告的自动标注、检索和诊断等任务