TP-DRSeg: Improving Diabetic Retinopathy Lesion Segmentation with Explicit Text-Prompts Assisted SAM

TP-DRSeg: Improving Diabetic Retinopathy Lesion Segmentation with Explicit Text-Prompts Assisted SAM

TP-DRSeg:用显式文本提示辅助SAM改善糖尿病视网膜病变分割

Wenxue Li, Xinyu Xiong, Peng Xia, Lie Ju, Zongyuan Ge

摘要:分段任意模型SAM,在各种任务中展示了相当大的前景。尽管这些模型取得了进展,但在专业医学图像分析方面仍然面临挑战,特别是在识别糖尿病视网膜病变(DR)病灶分割的微妙类间差异方面。在本文中,我们提出了一个新的框架,定制SAM用于文本提示的DR病变分割,称为TP-DRSeg。我们的核心思想是利用语言线索将医学先验知识注入到纯视觉分割网络中,从而结合不同基础模型的优势,提高分割的可信度。具体来说,为了释放视觉语言模型在医学概念识别中的潜力,我们提出了一个显式先验编码器,将隐性医学概念转化为显式先验知识,提供可解释的线索,以挖掘与病变相关的低级特征。此外,我们设计了一个与先验对齐的注入器,将明确的先验注入到分割过程中,这可以促进跨多模态特征的知识共享,并允许我们的框架以参数高效的方式进行训练。实验结果表明,该框架优于其他传统模型和基础模型变体。

面临的问题:一方面,由于视觉主干较小(如ResNet-34),可用的训练数据有限,这些方法通常需要很长的训练过程[5]来学习有价值的表示,这很耗时,容易过度拟合。另一方面,细微的类间差异给准确的病变分类带来了挑战。现有的试验只关注视觉监督,缺乏专业领域知识的指导。

SAM 在各种场景中展示了惊人的能力。但在医疗任务中存在局限性;如图1a所示,SAM严重依赖手动提示,如点数与方框。但DR病变存在小而多的性质,手动提示工作量巨大,使得这种方法不适合临床应用。一些方法引入上下文提示,从全局角度适应SAM,如一次性提示(图1 (a(ii)),但它们难以处理局部病变,导致性能不佳。参数高效微调方法(图1 (a(iii)))通过调整有限数量的参数使SAM适应下游任务。然而,这些方法忽略了基于提示的策略来实现自动推理。在实践中,更灵活的提示细分方法将是首选,允许医生在必要时通过有针对性的提示来更精确地改进结果。

此外,这些与sam相关的方法难以区分细粒度的DR病变类别,通常只能生成类别不可知性的掩模。

VLMS视觉语言模型具有讲图像与相应文本描述对齐的能力,在许多下游应用中显示出较高性能。那么该模型是否能够帮助视觉模型使用文本线索定位病变,用来增强区分不同病灶的准确性和增强分割的可信度?然而,由于自然和医学领域之间的巨大差距,VLMs的潜力在医学成像方面仍未得到很大开发。如图1 (b)所示,由隐式类名生成的类激活映射表明,VLM(例如CLIP)无法在此上下文中提供有用的先验。

本文设计出一种灵活的DR病变分割方案,允许直接生成对应的特定文本分类的掩膜,如图1 (a(iv))所示。同时,我们的目标是通过VLM整合基于文本的线索,提高模型的可信度和识别DR病变类别间差异的能力。因此,我们提出了一种明确的先验编码器,它利用明确的病变描述而不是隐式的类名来生成可解释的线索,用于分割和区分类间差异。具体来说,DR病变的形态外观可以通过VLMs容易理解的特定描述来表示,例如将硬渗出物描述为黄白色沉积物。这些可解释的线索提高了分割过程中的可信度。此外,我们在SAM编码器中引入了一个先验对齐的注入器,将基于文本的外部先验注入到分割过程中,进一步促进了VLM和纯视觉模型之间的知识共享和对齐。最后,特定于类的提示生成器生成针对文本提示输入的特定提示,这些提示随后被送入SAM解码器以生成相应的分段掩码。

文章主要贡献:

1 提出了一个利用文本提示生成可解释性线索的新框架,从而提高了DR分割的可靠性,

2 引入显式先验编码器,将隐式医学概念转化为显式先验,为分割提供可解释的全局指导,增强病灶识别能力;

3 设计了一个与先验对齐的注射器(a prior-aligned injector)。,用于将可解释的显式先验集成到分割过程中,并促进了跨多种模式的知识共享。

方法:

问题的定义:定义输入图像为I,文本提示符为t,目标是生成其掩码。

图二为模型整体结构,该模型由四个关键组件构成:基于VLM的显式先验编码器,具有先验对其注入器的SAM编码器,特定于类的提示生成器和SAM编码器。

工作流程:显式先验编码器首先对文本类提示符t进行编码,并产生显式先验。接下来,SAM编码器提取输入图像的多层次特征,先验对齐的注入器促进文本引导的显式先验特征和多层次视觉特征之间的知识共享。然后,特定于类的提示生成器根据显式先验生成提示,随后将提示输入SAM解码器以生成相应的掩码。

编码器部分:与现有的纯视觉DR分割方法不同,我们在分割中采用语言的形式提供外部知识。我们深入研究了使用显式描述代替隐式类名来指导分段。该策略需要利用外部知识,并通过VLM中根深蒂固的鲁棒图像文本知识(例如CLIP)对其进行预处理,最终生成我们称之为显式先验的内容。显性先验信息的结合提供了可解释的线索,增强了分割过程的可信度。

具体而言:利用预训练的CLIP的冷冻图像编码器Ei和文本编码器Et对视觉输入和显性病变知识进行编码,得到视觉先验Pv和文本先验Pt。然后将Pv重塑为Ei(I)然后将文本先验和视觉先验对齐为:

其中||为L2归一化。接下来将S重塑为S‘其中形状变为了HWC,一开始是1xC。

Prior-Aligned Injector部分

由于预训练的SAM和CLIP模型中嵌入的知识在集成之前不会相互“看到”并且保持孤立,因此构建交互桥梁以确保统一特征空间内表示的对齐至关重要。此外,还需要一种将外部知识注入到分割过程中的机制。为了解决这个问题,我们在每个编码器层中提出了一个先验对齐的注入器(如图3(a)所示),旨在促进分割和视觉语言模型之间的知识共享。形式上,对于SAM编码器的中间第i块,将编码特征Fi∈R Hs×Ws×Ci送入跨模态交互模块,与显式先验Pe交互。注入器F ' i的输出被送入下一个编码器块。

交叉模式交互。我们首先将编码特征Fi与显式先验Pe聚合,得到显式激活特征F acti = Fi ×Pe。这一操作使得在交互过程中可以利用先验的准确定位。然后,我们将Fi作为查询,并将显式激活特征F ' i作为键和值。将查询、键和值输入到缩放投影操作中调整分辨率,通过一个stride-4的1 × 1卷积层实现,可以写成:

其中,ϕq(·),ϕk(·),ϕv(·)表示缩放后的投影操作。然后,我们利用这些投影特征进行跨模态交互,如:

其中d是关键向量的维数,γ是一个可学习的参数,用于调整注意力输出与原始输入的混合比例。在这个模块中,我们引入了残余连接来增强稳定性。最后,我们通过上采样将F ' i的分辨率调整回输入大小,如F ' i = U psample(F ' i)。通过这样做,该注入器可以在文本全局先验的指导下对图像的上下文进行建模,而无需对编码器进行完全微调。

Class-specific Prompt Generator特定于类的提示生成器

本模块采用基于文本提示的显式先验来指导病灶分割提示的生成,如图3 (b)所示。图像编码器生成的特征嵌入记为Fe∈R HeWe×Ce,其中He、We和Ce分别表示特征的宽度、高度和通道。我们将其重塑为Fe∈R He×We×Ce。然后,与先验特征Pe相互作用,得到先验引导特征Fp = Fe × Pe。我们复制Fp c次,得到F ' p∈R c×He×We×Ce,并为每个类别分配一个特定的通道,其中c是总体类别数。通过这样做,每个通道都包含特定于类别的信息。对于给定的类ci,我们只保留与给定类ci相关的通道(如F ci p),并将其投影得到密集嵌入Ed和稀疏嵌入Es 中

其中,dense(·)为卷积运算,sparse(·)为线性投影运算,重塑(·)运算将特征重塑为F ci p∈R Ce×HeWe。

随后,Ed和Es被输入到SAM解码器中,作为原始SAM解码器中密集和稀疏嵌入的输入。在这里,我们利用原始的SAM解码器来处理密集和稀疏的嵌入以进行病灶分割。密集嵌入提供了全局指导,而稀疏嵌入保留了更详细的病灶信息,进一步增强了病灶分割。最后,SAM解码器输出预测映射P。

培训目标。为了训练我们的分割模型,整体训练目标采用二元交叉熵损失和IoU损失的组合。

实验部分:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值