CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison
1. 背景与意义
- 背景:胸部X光检查是全球最常见的影像检查之一,对于筛查、诊断和管理多种威胁生命的疾病至关重要。
- 意义:自动化胸部X光片解释达到专业放射科医生的水平可以在很多医疗环境中带来显著的益处,如改进工作流程优先级、临床决策支持、大规模筛查和全球人口健康项目。
2. CheXpert数据集
- 数据集规模:包含224,316张胸部X光片,涉及65,240名患者,标注了14种常见的胸部X光片观察结果。
- 标签生成:设计了一种标签生成器,能够从放射学报告中自动检测14种观察结果的存在情况,并捕捉报告中固有的不确定性。
- 不确定性处理:研究了将不确定性标签用于训练卷积神经网络的方法,这些网络可以输出给定正位和侧位X光片的观察结果概率。
3. 数据收集与标签选择
- 数据收集:从斯坦福医院2002年10月至2017年7月期间的住院和门诊中心收集胸部X光检查和相应的放射学报告。
- 标签选择:手动审查了1000份报告以确定可提取的观察结果,确定了14种观察结果,并使用了Fleischner Society推荐的术语表。
4. 标签提取
- 方法:开发了一个基于规则的标签生成器,从放射学报告的印象部分提取观察结果。该生成器分为提及提取、提及分类和提及聚合三个阶段。
- 结果:在提及提取、否定检测和不确定性检测任务上,CheXpert的标签生成器在F1得分上超过了NIH的标签生成器。
5. 模型训练与验证
- 模型架构:使用DenseNet121架构,输入图像大小为320×320像素,使用Adam优化器训练。
- 不确定性处理方法:
- 忽略不确定性标签
- 将不确定性标签映射为0或1
- 自我训练方法
- 三类分类方法(将不确定性作为单独的类别)
- 验证结果:对不同不确定性处理方法进行验证,发现忽略不确定性标签效果较差,而三类分类方法在处理边界病例上表现较好。
6. 测试结果
- 对比放射科医生:在包含500个研究的测试集上,比较模型与放射科医生的表现。模型在检测心脏扩大、水肿和胸腔积液等病理时表现优于大多数放射科医生。
- 可视化:使用梯度加权类激活映射(Grad-CAM)可视化模型预测,展示模型如何定位X光片中的重要区域。
7. 结论
- 贡献:CheXpert数据集提供了一个强大的基准,用于评估胸部X光片解释模型的性能,促进了该领域的进展。
- 未来展望:希望该数据集能够帮助开发和验证胸部X光片解释模型,从而改善全球医疗服务的可及性和质量。
核心结论
CheXpert数据集通过引入不确定性标签和放射科医生标注的验证集,为胸部X光片解释模型的发展提供了强有力的支持。研究表明,处理不确定性标签的方法对模型性能有显著影响,特别是在处理边界病例时。最终,CheXpert数据集有望推动自动化胸部X光片解释模型的发展,改善全球医疗服务。