【论文阅读】LARGE-SCALE DOMAIN-SPECIFIC PRETRAINING FOR BIOMEDICAL VISION-LANGUAGE PROCESSING


在这里插入图片描述
论文链接:https://arxiv.org/pdf/2303.00915.pdf
代码链接: aka.ms/biomedclip

这篇论文的创新点主要在于提出了一种针对生物医学领域的大规模领域特定预训练方法,名为BiomedCLIP。该方法使用了比现有生物医学图像-文本数据集大两个数量级的数据集进行训练,并进行了领域特定的自适应。BiomedCLIP在多个标准生物医学图像任务上取得了新的最优结果,远远超过了以前的VLP方法。此外,该论文还提出了未来的研究方向,包括进一步改进预训练和微调、多模态生成、图像搜索、数字病理学、精准医学的多模态融合等。

摘要

基于并行图像-文本数据的对比预训练在视觉语言处理(VLP)中取得了巨大的成功,其中以CLIP和相关方法为代表。然而,先前的探索往往集中在网络的一般领域。生物医学图像领域和文本是相当不同的,但公开可用的数据集很小,而且倾向于胸部x射线,因此严重限制了进展。在本文中,我们进行了迄今为止最大的生物医学VLP研究,使用了从PubMed Central 的生物医学研究文章中提取的1500万对图标题。我们的数据集(PMC-15M)比现有的生物医学图像-文本数据集(如MIMIC-CXR)大两个数量级,并且并且涵盖了各种生物医学图像。标准CLIP方法对于生物医学领域是次优的。我们提出了针对生物医学VLP的特定领域适应性的生物医学CLIP。我们对标准生物医学成像任务进行了广泛的实验和消融研究,从检索到分类再到视觉问答。生物医学CLIP在广泛的标准数据集中建立了新的技术状态。令人惊讶的是,在RSNA肺炎检测等放射学特定任务上,BiomedCLIP甚至超过了BioViL等放射学特定的最先进模型,从而突破了在所有生物医学图像类型的大规模预训练中的实用性。

引言

虽然CLIP在一般领域是成功的,但是这种预训练模型不适合生物医学应用,因为生物医学图像和文本与标准Web内容截然不同。大型语言模型的特定领域预训练已被证明有助于生物医学NLP应用,然而,在生物医学视觉语言处理(VLP)中,并行数据的有限可用性阻碍了进展。MIMIC-CXR是生物医学领域最大的公共图像-文本数据集,但它完全由胸部x射线图像和报告组成,只有228k对。

在本文中,我们通过从PubMed Central的生物医学研究文章中挑选图片标题对,对生物医学VLP的特定领域预训练进行了大规模的研究。这产生了一个具有1500万生物医学图像-文本对(PMC-15M)的数据集,比MIMIC-CXR大两个数量级,涵盖了各种图像类型(表1和图3至5)。

我们发现标准的CLIP方法对于生物医学领域是次优的,因为它与web和一般领域有很大的不同。我们对潜在的特定领域适应性(例如,编码器和批量大小)进行了深入研究,以确定生物医学VLP的最佳实践。基于这些结果,我们提出了大大优于替代方法的BiomedCLIP。我们对标准的生物医学成像任务进行了广泛的实验,如检索、分类和视觉问答(VQA)。有趣的是,通过跨不同生物医学图像类型的大规模预训练,在RSNA肺炎检测等放射学特定任务上,BiomedCLIP甚至优于BioViL (Boecking等人,2022)等放射学特定的最先进模型(Shih等人,2019)。为了促进生物医学VLP的未来研究,我们在aka.ms/ BiomedCLIP上发布了我们的生物医学clip模型。

方法

PMC-15M: A LARGE PARALLEL IMAGE-TEXT DATASET FOR BIOMEDICINE

对并行图像-文本数据进行预训练是通用领域视觉语言模型成功的关键,如CLIP (Radford等人,2021)、dale - e (Ramesh等人,2021)和Stable Diffusion (Rombach等人,2022)。因此,人们越来越努力地从挖掘网络图像和字幕中创建大型数据集(Sharma等人,2018;Changpinyo等,2021;Srinivasan等,2021;Schuhmann et al, 2022)。然而,在生物医学领域,并行图像-文本数据集仍然相对较小,范围在15k-228k对之间,例如MIMIC-CXR (Johnson等人,2019),CheXpert (Irvin等人,2019),ARCH (Gamper & Rajpoot, 2021)和ROCO (Pelka等人,2018)。此外,这些数据主要偏向于胸部x光片。先前在一般领域的研究已经证明了在不同的大规模数据集上进行预训练的优势(Radford et al, 2021)。为了促进生物医学领域的大规模视觉语言预训练,我们通过挖掘PubMed Central (PMC)文章创建了迄今为止最大的生物医学图像文本数据集。PubMed是一个综合性的生物医学研究论文资源库。先前使用PubMed的重点是利用文本来预训练生物医学语言模型(例如,PubMedBERT (Gu et al ., 2021), BioGPT (Luo et al ., 2022))。在这里,我们利用PMC全文文章中丰富的图-标题对进行视觉语言预训练。

PubMed Central包含440万篇公开全文文章(截至2022年6月15日)。我们下载并提取了包含完整文章包的压缩目录。每篇文章都表示为XML、PDF、媒体和补充材料的包。我们提取了图文件和匹配的标题,以及出处文章的PMID和PMCID。这产生了一个数据集PMC-15M,其中包含来自300多万篇文章的1500万个图片标题对。

在这里插入图片描述
在这里插入图片描述

BIOMEDCLIP: LARGE-SCALE VISION-LANGUAGE PRETRAINING FOR BIOMEDICINE

CLIP最小化了InfoNCE损失,即这些相似性分数上的对称交叉熵损失
在这里插入图片描述
生物医学文本和图像与CLIP预训练中使用的网络数据截然不同。我们发现标准的CLIP设置对于生物医学视觉语言预训练是次优的。因此,我们对潜在的适应性进行了系统的研究,并确定了生物医学领域的一系列特定领域的适应性。我们使用验证集上的优化损失和跨模态检索结果来指导我们的初步探索,并在评估部分报告详细的消融研究。

在文本方面,我们用更适合生物医学的预训练语言模型取代了空白的GPT-2。具体来说,我们初始化PubMedBERT,它显示了特定领域预训练的实质性收益(Gu et al, 2021)。相应地,对于标记器,我们替换字节对编码(BPE;Sennrich等人,2016)使用WordPiece (Kudo & Richardson, 2018),它使用基于单字母的可能性,而不是将所有单词粉碎为字符,并根据频率贪婪地形成更大的标记。Correspondingly, for the tokenizer, we replace Byte-Pair Encoding (BPE; Sennrich et al., 2016) with WordPiece (Kudo & Richardson, 2018), which uses unigram-based likelihood rather than shattering all words to characters and greedily forming larger tokens based on frequency.
原始CLIP使用77个令牌的上下文,但生物医学文本通常更长。因此,我们将上下文大小增加到256,这覆盖了90%的PMC标题。表2显示,这两种修改都比验证集上的原始CLIP模型带来了实质性的改进。
在这里插入图片描述
在图像方面,我们首先在不同的尺度上评估视觉变压器(ViT),从ViT- small, ViT- medium到ViT- base。ViT模型名称中的后缀“/16”是指16×16像素的patch大小,即将输入图像分成此大小的patch,并通过变压器块馈送。如表3所示,我们发现ViT越大,性能越好,这证实了模型可扩展性在我们的新数据集PMC-15M上的重要性。在随后的所有实验中,我们都使用最大的ViT-B/16。生物医学图像理解通常需要细粒度的视觉特征(Zhang et al ., 2020)。我们进行了一系列的实验来探索图像分辨率的影响;见表4。
在这里插入图片描述
通过将图像大小由224增加到336,我们在验证结果中观察到显著的增益。但这也会导致预训练时间翻倍。通过对50%的patch应用random dropout (Li等人,2022b),我们恢复了预训练速度,同时仍然获得了不错的性能增益,特别是添加了一个epoch的unmask微调(从8个epoch中),这有助于缩小由patch dropout引起的分布差距。当训练时间更长(40次)时,我们观察到带有patch dropout的预训练比没有补丁dropout的预训练产生更好的结果。这可以归因于正则化效应,它鼓励模型关注更小的细节和子图。
在这里插入图片描述
最后,我们研究了批量大小的影响。我们通过梯度积累来增加批大小(Cui et al ., 2022),它缓存每个子迭代的嵌入并计算梯度,直到达到批大小。在表5中,我们研究了两个批处理计划:(1)40个epoch以恒定的批大小4k进行训练,(2)前8个epoch以4k批大小进行训练,然后在其余32个epoch以64k批大小进行训练。我们发现,与其一开始就使用大的批大小,不如从较小的批大小开始,然后逐渐增加批大小,可以获得学习速度和稳定性的最佳权衡。
在这里插入图片描述
我们使用上述最优批处理计划预训练了一系列在PMC-15M上预训练的生物CLIP模型,并将其与通用领域CLIP模型进行比较(Radford et al, 2021)。如表6所示,在PMC-15M上进行大规模预训练或持续预训练总是有帮助的,使用生物医学预训练语言模型(PubMedBERT)、大型视觉转换器和更高的图像分辨率通常可以获得最好的效果。

在这里插入图片描述
通过PyTorch DDP,使用多达16个NVIDIA A100 gpu或16个NVIDIA V100 gpu进行预训练实验(Li等,2020;Paszke et al, 2019)。为了减少内存消耗,我们启用了数据类型为bfloat16的梯度检查点和自动混合精度(AMP)(只要硬件支持)。

进行的任务以及使用的数据集

在这里插入图片描述

跨模态探索验证(文本到图像检索或图像到文本检索)

在这里插入图片描述
PubMedCLIP在CLIP的持续预训练中只使用了放射学图像/文本对,这只占生物医学文献中图像的一小部分。此外,在没有额外注意的情况下对小数据集进行持续预训练可能导致灾难性遗忘。

为了理解在生物医学交叉模态检索中,BiomedCLIP如何优于一般域CLIP,我们在图6中展示了三个随机示例。在每个示例中,我们显示了给出文本提示的前4个图像检索结果,正确答案显示在一个金色框中。一般的CLIP可以找到匹配常见关键词的图像,如“胸部x光片”,但很难区分微妙的语义,如“胸腔积液”、“纺锤形细胞”,甚至是重要的生物医学图像类别,如动脉自旋标记(ASL)。相比之下,BiomedCLIP不仅能识别高水平的类别,还能识别诸如“右侧大量胸腔积液”之类的细节。
例如,根据标题,第一行的图像是完全正确的,除了右下角的图像,它看起来仍然很像其他图像。在第二行,BiomedCLIP能够找到正确的答案和额外的纺锤形细胞的H&E图像,如提示所述,不像一般的CLIP。
在这里插入图片描述

图像分类探索

我们使用评估工具包ELEV A TER (Li et al ., 2022a)来促进我们的图像分类实验。它是一个易于使用的工具包,可以有效地适应预训练的视觉语言模型并自动调整超参数。它支持zero-shot,few-shot和full-shot评估,线性探测和全模型微调可用于后两种设置。它还包含从不同领域收集的20个图像分类数据集,包括我们在实验中使用的生物医学的PatchCamelyon。此外,我们评估了三个标准的生物医学成像基准LC25000, TCGA-TIL和RSNA。

MedCLIP (Wang et al ., 2022)通过对比学习将预训练扩展到包括大型未配对的图像和文本。它分别使用预训练的BioClinicalBERT和Swin Transformer (Liu et al ., 2021b)作为主干文本编码器和视觉编码器,并对MIMIC-CXR和CheXpert数据集进行微调。PubMedCLIP (Eslami等人,2021)对Radiology Objects in COntext (ROCO)数据集Pelka等人(2018)的CLIP进行了微调,该数据集由来自PubMed文章的80K放射学图像-文本对组成。所有模型都被应用到ELEVATER中进行评估。

在这里插入图片描述
在这里插入图片描述
我们分别用1%、10%和100%的训练数据对模型进行线性探测,以评估标准放射学基准RSNA上的少射/全射性能。有趣的是,通过对所有生物医学图像类别的不同数据进行预训练,在这个放射学基准上,BiomedCLIP甚至优于最先进的放射学特异性BioViL模型(Boecking等人,2022)。此外,值得注意的是,仅使用10%的标记数据,BiomedCLIP就已经超过了完全监督的BioViL。如图4所示(通过关键词频率估计的图类型,可能会导致重复计数),BiomedCLIP中的放射学相关图像并不比BioViL预训练中使用的MIMIC-CXR中的图像多,并且图像-文本对可能会有更大的噪声。因此,生物医学clip在RSNA上的优异表现不太可能源于更多的放射学特异性预训练。相反,整体的大规模预训练,即使是在其他图像类型上,也可能有助于预训练一个更健壮的图像编码器。

医学视觉问答探索

我们利用METER (Dou et al ., 2022)框架来促进我们在视觉问答(VQA)方面的实验。它将VQA任务表述为分类任务。METER的核心模块是一个基于transformer的共同关注多模态融合模块,它对图像和文本编码产生跨模态表示,然后将其馈送到分类器以预测最终答案。我们将BiomedCLIP与通用领域的CLIP、仅在视觉数据上预训练的MAML(模型不可知元学习)网络以及最先进的PubMedCLIP进行比较。所有三个模型都使用QCR(通过条件推理回答问题)框架(Zhan等人,2020)对VQA任务进行了微调,该框架可选择使用基于mlp的注意力网络和条件推理作为融合模块。我们在下面两个标准数据集上评估了模型。
在这里插入图片描述
我们对PubMedCLIP论文(Eslami et al, 2021)中报告的例子进行了评估,其中所有先前最先进的模型(包括PubMedCLIP)都未能正确回答。参见图7。例如B,先前的模型无法返回正确的答案,而例如C,它们的答案表明它们甚至无法理解问题是关于什么的。BiomedCLIP完美地解决了这两个问题。例如A, MEVF错误地识别了图像中显示的身体部位,而QCR和PubMedCLIP将问题误解为二进制问题(是/否)。虽然BiomedCLIP也没有得到正确的答案,但它正确地识别了图像中呈现的相关器官。

在这里插入图片描述

局限性

尽管生物医学视觉语言处理显示了大规模特定领域预训练的明显优势,但我们目前的方法存在以下几个局限性:1)复合图形在科学文献中普遍存在。我们的数据管道没有对复合数字进行特殊处理。将它们分割成子图可以在很大程度上增加数据大小,并可能导致更好的视觉语言表示。如何分割相应的字幕也是一个挑战。2)除了字幕,内联参考的上下文也可以与相应的图形自然配对,产生额外的训练信号。我们当前的数据管道没有触及它。3)由于计算的限制,我们使用的最大的视觉编码器是viti - b,与viti - l, viti - h和viti - g相比,它仍然相对较小。输入图像大小448也受到计算的限制。如图3所示,原始尺寸小于448的图形只占整个PMC-15M的不到25%。4)我们观察到预训练与几个下游图像分类任务(如PCam、LC25000和RSNA)之间存在性能差距。最佳生物clip模型“vitb /16-448-PMB/256”在这些任务上表现不佳。使用较小图像尺寸或预训练时间较短的生物clip模型表现出更好的性能。这是因为PubMed的文章通常是经过整理的,并且包含了大型研究中的图像,以优化相关发现,因此它的分布将倾向于不太常见的病理,而不是在典型的医学环境中看到的。

更多内容详见公众号:曲艺小苑
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值