(CONTRASTIVELEARNING OFMEDICALVISUALREPRESENTATIONS FROMPAIREDIMAGES ANDTEXT)对配对图像和文本的医学视觉表示的对比学习阅读笔

虽然在某些特定领域和情况下取得了专家级的绩效,医学图像理解对于大多数领域来说仍然是一项困难的任务,主要是因为其具有挑战性和注释数据的极端稀缺性。

现有方法及其局限性

现有工作遵循两种通用方法以获取医学成像任务的注释。

第一种方法是使用由医学专家创建的高质量注释,然而这种方法的高成本导致数据集比自然图像数据集小很多数量级。为了解决这一问题,现有的工作在很大程度上依赖于从ImageNet预训练转移模型权重,这种方法是次优的,因为医学图像理解通常需要非常细粒度的视觉特征表示,这些特征与在自然图像中识别对象所需的特征截然不同,Raghu等人(2019年)发现,与简单的随机初始化相比,ImageNet预训练通常没有什么好处。

第二种流行的方法是使用专家精心编制的规则从医学图像附带的文本报告中提取标签。这种方法产生了更大规模的数据集,因为文本和医学图像数据通常由医学专家在其日常工作流程中自然生成,并在医院的IT系统中大量生成。然而,这种基于规则的标签提取方法有两个局限性:1、这些规则往往不准确,而且仅限于几个主要类别。2、这些规则通常是特定于领域的,并且对文本的风格敏感,这使得跨领域和跨机构的概括变得困难。

ConVIRT

为了更有效地利用未标记的图像数据,最近的几项研究在从自然图像中对比学习的看到了有希望的结果,然而,正如我们将要展示的,与ImageNet预训练相比,将这些基于图像的对比方法应用于医学图像只提供了微不足道的好处,这一结果主要是由于医学图像的高类间相似性。

在这项工作中,我们的目标是通过结合从大量文本数据学习和无监督统计方法的优点来改进医学图像的视觉表示。我们提出了ConVIRT,这是一个通过利用图像和文本数据的自然配对来学习视觉表征的框架。我们将ConVIRT应用于医学图像编码器的预训练,并表明它可以获得更高质量的域内图像表示,从而捕获医学图像理解任务所需的视觉特征的细微之处。

与现有方法相比,ConVIRT的优点是以一种与医学专业无关的方式利用成对文本图像数据,并且不需要额外的专家输入。这使我们能够通过将预先训练的权重转移到涵盖2个不同专业的4个不同医学图像分类任务来评估ConVIRT。

我们发现,生成的模型优于所有基线初始化方法,包括标准的ImageNet预训练和几个也利用成对文本数据的强基线。最值得注意的是,在所有4项任务中,ConVIRT只需要比ImageNet初始化对应项多10%的标记训练数据,即可获得更好或可比的性能。我们进一步评估了ConVIRT在两个新的zero-shot检索任务上的性能,一个是图像检索任务,一个是文本图像检索任务,并且发现它优于所有基线。

实验

我们评估了我们的预训练图像编码器的一个下游医学成像任务:文本图像检索

使用文本查询检索特定类别的图像。

我们将ConVIRT与以下标准或竞争性初始化方法进行比较:

随机初始化:对于所有任务,我们使用默认的随机初始化来初始化ResNet50。

ImageNet初始化:我们使用标准ImageNet ILSVRC-2012任务中预先训练的权重初始化ResNet50,我们将此作为基线,因为ImageNet预训练仍然是医学成像工作的主要方法

Caption-LSTM:我们通过使用标准的CNN-LSTM和注意力架构,首先使用图像字幕任务对ResNet50权重进行预训练,从而初始化ResNet50权重。对于字幕任务,我们训练模型解码来自编码图像表示的成对文本报告。与随机或ImageNet初始化相比,这是一个“域内”初始化基线,它使用成对的文本数据进行表示学习。

Contrastive-Binary:该基线与我们的方法不同,它将成对的图像和文本表示用二值分类头进行对比,这在视觉语言预训练工作中得到了广泛的应用。对于每个输入对,我们首先使用线性层将编码器输出hv和hu投影到相同的维度,将它们连接起来,并使用MLP网络预测输入是真对还是假对的二元概率,我们使用二元交叉熵损失进行训练。在训练过程中,对于训练集中的每个(xv,xu)对,我们通过从数据集中随机抽样的一个对替换xu来构造一个“假”对。我们预计二进制分类任务需要编码器学习输入图像的合理表示,因此是一个更强的域内初始化基线。

我们在表1a中给出了医疗成像任务的所有线性分类结果。我们发现,与随机初始化相比,ImageNet初始化提供了明显更好的表示,尽管在非常不同的图像域上进行了预训练;在几乎所有设置中,使用成对图像文本数据的域内图像初始化方法都比ImageNet初始化有进一步的改进。在域内初始化方法中,我们提出的ConVIRT预训练在所有设置下都取得了最好的整体效果。值得注意的是,我们发现在四项任务中的三项任务中,仅使用1%的训练数据,ConVIRT能够比使用100%训练数据的默认ImageNet初始化更好地实现分类结果,突出了从ConVIRT学习到的表示的高质量

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值