论文阅读笔记:Multimodal Self-Supervised Learning for Medical Image Analysis

来源

arxiv

标题

Multimodal Self-Supervised Learning for Medical Image Analysis

作者单位

德国波茨坦大学Hasso Plattner研究所

方法简介

关键词:自监督学习,图像拼接(Jigsaw puzzle),名义任务(pretext),下游任务(downstream  task),多模态图像

 

方法本质:自监督学习算法中的图像拼接算法。该算法将一张图像切成大小均匀的patch并打乱顺序,训练网络将打乱后的patch拼成原图像的样子,类似解决拼图问题。训练网络解决拼图问题,可以使网络自监督地学习到图像的深层特征,从而提升网络在下游任务中(分割、分类等)的表现。

 

本研究创新点:将图像拼接算法运用到医学图像中;对多模态图像使用了将图像拼接算法。

 

试验数据和主要结果

在两个数据集上进行实验:the BraTS and the Prostate semantic segmentation datasets。

 

共三个任务:针对BraTS数据集有两个任务,分割脑肿瘤的三个区域和生存天数预测;针对Prostate数据集是分割前列腺的中央带和外周带。即两个分割任务,一个回归任务。

 

以上的任务只是该自监督算法的下游任务,目的是验证本研究提出的自监督算法的有效性。

 

主要结果:在三个任务上,加入本研究提出的自监督算法后,网络的性能都得到了提升。将多模态图像进行混合打乱,比打乱单模态图像,提升更大。

 

研究借鉴意义

1. 本研究主要是提出了一种自监督算法,针对小数据集,或者标注量较少的数据集,可以提升网络分割、分类性能。

 

2. 即使数据量足够大,也可以通过这种自监督方式,对网络进行预训练。然后用标注好的图像进行微调。

 

3. 除了本文使用的图像拼接(Jigsaw puzzle)这种自监督方式外,自然图像中常用的自监督方式还有:图片旋转(Rotation),图像着色(Image Colorization),图像修复(Image inpainting),可以尝试将这几种方法与多模态医学图像相结合进行研究。

### STiL 方法概述 Semi-supervised Tabular-Image Learning (STiL) 是一种用于处理多模态数据的半监督学习方法[^1]。该方法旨在通过结合表格数据和图像数据来提升模型性能,特别是在标注数据有限的情况下。STiL 的核心目标是从不同模态的数据中提取任务相关信息并加以融合。 #### 多模态分类中的任务相关信息探索 在多模态分类场景下,任务相关信息通常分布在不同的数据源之间。STiL 方法通过设计特定机制,在训练过程中逐步识别哪些特征对于当前任务最为重要[^2]。具体而言: - **跨模态关联建模**:STiL 利用注意力机制捕获表格数据与图像数据之间的潜在关系。这种机制能够动态调整各模态的重要性权重,从而聚焦于最相关的部分[^3]。 - **自监督信号增强**:为了充分利用未标记样本的信息,STiL 引入了自监督学习策略。这些策略可以通过预测旋转角度、对比学习等方式生成额外的学习信号,进一步优化模型参数[^4]。 - **联合表示空间构建**:通过对齐两种模态的嵌入向量,STiL 创建了一个统一的任务相关表示空间。这使得即使某些模态缺失或质量较差时,模型仍能保持较高的鲁棒性和准确性[^5]。 以下是实现上述功能的一个简化代码框架: ```python import torch.nn as nn class STILModel(nn.Module): def __init__(self, tabular_dim, image_channels): super(STILModel, self).__init__() # 图像编码器初始化 self.image_encoder = ImageEncoder(image_channels) # 表格数据编码器初始化 self.tabular_encoder = TabularEncoder(tabular_dim) # 跨模态注意层 self.cross_modal_attention = CrossModalAttention() # 输出层定义 self.classifier = Classifier() def forward(self, table_data, image_data): img_features = self.image_encoder(image_data) tab_features = self.tabular_encoder(table_data) combined_features = self.cross_modal_attention(img_features, tab_features) output = self.classifier(combined_features) return output ``` 此代码展示了如何分别对图像和表格数据进行编码,并利用 `CrossModalAttention` 层完成两者间的交互操作[^6]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值