mmFormer
mmFormer: Multimodal Medical Transformer for Incomplete Multimodal Learning of Brain Tumor Segmentation
Mmformer:用于脑肿瘤分割的不完全多模态学习的多模态医学转换器
背景
BraTs2018 4种模态数据集,但是在实际问题中,会出现模态缺失问题,导致多模态分割性能严重下降。首次尝试利用Transformer进行多模态脑肿瘤分割,对任何可用模态的组合子集都具有鲁棒性。提出一种用于不完全多模态学习的新型多模态医学transformer
贡献、总结
- 利用Transformer为不完全多模态学习的脑肿瘤分割构建一个统一的模型。提出了多模态医学转换器( Multimodal Medical Transformer,mmFormer ),利用混合的模式特异性编码器和模态相关的编码器来建立不同模态内部和跨模态之间的长距离依赖关系。
- 引入辅助正则项,以鼓励编码器和解码器在一定数量的模态缺失的情况下学习具有判别性的特征
- 通过显式地建立和对齐不同模态之间的全局相关性来提取模态不变特征
实验
预处理:BraTS2018,裁剪到128 128 128 batchsize=1,随机反转、裁剪、强度偏移。
各种模态组合训练,都获得较好的性能。
方法
-
混合模态特异性编码器(用于模态内局部和全局上下文建模)
4个不共享的编码器,Transformer,提取模态内的全局和局部上下文信息,首先利用卷积编码器生成具有局部上下文的紧凑特征图,然后利用模态内Transformer来建模全局空间中的长相关性(卷积提取局部特征,Transformer提取全局特征)
模态内Transformer
由于拉伸成一维,这种扁平化的操作会丢失空间信息,引入了可学习的位置编码PE来解决此问题。 -
跨模态Transformer(构建和对齐模态不变性特征,肿瘤区域对应的全局语义的跨模态长距离约束)
编码器得到了4个模态的特异性特征,接下来融合得到模态间的特征。模态间Transformer将所有模式特异性编码器的嵌入以级联的方式组合为输入的多模态token。这种模态级别的丢弃是在训练过程中随机进行的,通过将δ m设置为0。
-
解码器(渐进上采样和融合模态不变特征)
和编码器结构一样,且有跳跃连接,简单来说就是个3DUNet
decoder_sep是个共享权重的解码器,接收CNN编码器输出的特征,直接用于分割,为了鼓励每个卷积编码器在没有其它模态辅助的情况下分割脑肿瘤。
decoder_fuse接收整个Encoder之后的特征,用于训练融合后的分割图 -
辅助正则器
鼓励每个卷积编码器在没有其他模态辅助的情况下分割脑肿瘤,卷积编码器的输出通过共享权重解码器进行上采样,以分别从每个模态中分割肿瘤,加入深度监督。
损失函数
fuse_loss训练融合后的分割图,sep_loss是decoder_sep的深度监督,prm_loss是decoder_fuse的深度监督。