CLIP-DR:文本知识引导的糖尿病视网膜病变分级与排名感知提示

CLIP-DR: Textual Knowledge-Guided Diabetic Retinopathy Grading with Ranking-Aware Prompting

摘要

背景: 糖尿病视网膜病变 (DR) 是糖尿病的一种并发症,通常需要几十年才能达到威胁视力的水平。准确、稳健地检测 DR 严重程度对于及时管理和治疗糖尿病至关重要。然而,目前的大多数 DR 分级方法对数据可变性(例如彩色眼底图像)的稳健性不足,对准确和稳健的分级构成了很大的困难。
目的: 在这项工作中,提出了一种新的 DR 分级框架 CLIP-DR
方法:
基于三个部分:

  • 最近的预训练视觉语言模型,如 CLIP,展示了跨各种下游任务的显着泛化能力,可作为有效的基线模型。
  • DR 的图像-文本对分级通常遵循可识别的自然顺序,但大多数现有的 DR 分级方法主要忽略了这一方面。
  • DR 严重性级别之间的长尾分布使分级过程复杂化。这项工作提出了一种新的排名感知提示策略,以帮助 CLIP 模型利用序数信息。在两个不同的排名方向上依次设计相邻的文本-图像对之间的可学习提示。
  • 我们在 CLIP 的结构中引入了 Similarity Matrix Smooth 模块,以平衡类分布。
    结果: 在 GDRBench 基准测试中与几种最先进的方法进行了广泛的比较,证明了我们的 CLIP-DR 的稳健性和卓越的性能。
    代码地址

方法

在这里插入图片描述
图 1.对于给定图像 I2,图像类为 ‘Mild’ 的可学习秩感知提示示例。[C1, …, C5] 代表 5 个不同的 DR 分级类。相似度分数由图像特征和文本特征的内积获得。设计满足以下两个不等式的可学习秩感知提示使模型能够学习自然顺序信息。
在这里插入图片描述
图 2. 框架概述。

  • 图像通过图像编码器进行处理,以提取图像特征 X。
  • 相应的文本标签被馈送到文本编码器中,为标签 T 生成文本嵌入。
  • 相似性矩阵 S 是通过内积获得的。
  • SMS 模块将 S 转换为具有相同尺寸的校准特征 S ̃。
  • 可学习的秩感知提示策略由 Lrank 显式实现,它在左右方向独立使用排名信息,Lmain 遵循 CLIP 的做法

详细看原文,大概就是两部分改动,平滑相似性矩阵和rank损失

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值