史上最多标签分类挑战赛-分类胸部X光片45个病变,包括罕见病。旨在解决长尾,多标签,零样本分类问题
比赛简介
胸部X线摄影,像许多诊断性医学检查一样,产生了临床发现的长尾分布(long-tailed);虽然一小部分疾病经常被常规观察到,但绝大多数疾病相对罕见。
这对标准的深度学习方法构成了挑战,这些方法表现出对最常见类别的偏见,以牺牲重要但罕见的“尾部”类别为代价。
许多现有的方法已被提出来解决这种特定的不平衡问题,尽管直到最近才有人关注长尾医学图像识别问题。
胸部X线(CXRs)的诊断也是一个多标签(multi-label)问题,因为患者通常同时表现出多种疾病发现;然而,只有少数研究将标签共现的知识纳入学习过程。
由于大多数大规模图像分类基准测试包含单标签图像,并且标签分布大多平衡,许多标准的深度学习方法无法适应像CXR上疾病诊断这样的任务所提出的类别不平衡和共现(co-occurrence)问题。
在2024年的MICCAI挑战赛中,CXR-LT Challenge就为了解决这个问题。
在2023年举行的CXR-LT的第一次迭代中,通过将目标类别从14个扩展到26个,通过解析放射学报告为12种新的罕见疾病发现生成标签,扩大了MIMIC-CXR-JPG数据集。
虽然这为一个具有挑战性的长尾、多标签疾病分类任务创造了条件,吸引了59个团队贡献了500多个独特的提交
但Radiology Gamuts Ontology文档记录了超过4500个独特的放射学图像发现。这意味着,胸部X射线检查上所有临床结果的"真实"分布至少比我们的或任何现有数据集所提供的结果,长出两个数量级。
因此,我们认为,真正解决放射学图像发现的长尾问题的唯一方法是开发一个能够以“零样本”(“zero-shot”)方式轻松推广到新类别的模型。
比赛数据
本次比赛使用来自 MIMIC-CXR-JPG v2.0.0 的数据。该数据集包含377,110 张 JPG 格式图像和结构化标签
比赛任务
比赛包括三个子任务
- 任务1:在一个庞大、嘈杂的测试集上进行长尾分类;
- 任务2:在一个小型、手动注释的测试集上进行长尾分类;
- 任务3:对以前未见过的疾病结果进行零样本泛化。
比赛时间
- 2024年5月1日:发布训练数据,挑战(开发阶段)开始
- 2024年8月1日:发布测试标签,进行最终评估(测试阶段)
- 2024年8月4日:测试阶段结束,竞赛关闭
- 2024年8月15日:邀请表现优秀的团队参加MICCAI 2024年会
- 2024年10月10日:MICCAI 2024 CXR-LT挑战赛事件