文章目录
CLIP-DR: Textual Knowledge-Guided Diabetic Retinopathy Grading with Ranking-Aware Prompting
摘要
背景: 糖尿病视网膜病变 (DR) 是糖尿病的一种并发症,通常需要几十年才能达到威胁视力的水平。准确、稳健地检测 DR 严重程度对于及时管理和治疗糖尿病至关重要。然而,目前的大多数 DR 分级方法对数据可变性(例如彩色眼底图像)的稳健性不足,对准确和稳健的分级构成了很大的困难。
目的: 在这项工作中,提出了一种新的 DR 分级框架 CLIP-DR
方法:
基于三个部分:
- 最近的预训练视觉语言模型,如 CLIP,展示了跨各种下游任务的显着泛化能力,可作为有效的基线模型。
- DR 的图像-文本对分级通常遵循可识别的自然顺序,但大多数现有的 DR 分级方法主要忽略了这一方面。
- DR 严重性级别之间的长尾分布使分级过程复杂化。这项工作提出了一种新的排名感知提示策略,以帮助 CLIP 模型利用序数信息。在两个不同的排名方向上依次设计相邻的文本-图像对之间的可学习提示。
- 我们在 CLIP 的结构中引入了 Similarity Matrix Smooth 模块,以平衡类分布。
结果: 在 GDRBench 基准测试中与几种最先进的方法进行了广泛的比较,证明了我们的 CLIP-DR 的稳健性和卓越的性能。
代码地址
方法
图 1.对于给定图像 I2,图像类为 ‘Mild’ 的可学习秩感知提示示例。[C1, …, C5] 代表 5 个不同的 DR 分级类。相似度分数由图像特征和文本特征的内积获得。设计满足以下两个不等式的可学习秩感知提示使模型能够学习自然顺序信息。
图 2. 框架概述。
- 图像通过图像编码器进行处理,以提取图像特征 X。
- 相应的文本标签被馈送到文本编码器中,为标签 T 生成文本嵌入。
- 相似性矩阵 S 是通过内积获得的。
- SMS 模块将 S 转换为具有相同尺寸的校准特征 S ̃。
- 可学习的秩感知提示策略由 Lrank 显式实现,它在左右方向独立使用排名信息,Lmain 遵循 CLIP 的做法
详细看原文,大概就是两部分改动,平滑相似性矩阵和rank损失
实验结果