论文名称:
Deep Learning Is Effective for Classifying Normal versus Age-Related Macular Degeneration OCT Images
发表期刊:
Ophthalmology Retina,2017
主要工作:
- 使用神经网络区分年龄相关性黄斑变性(AMD,Age-Related Macular Degeneration)患者和正常人
- 从图像级别、黄斑级别和病人级别进行性能评估
1. 方法:
1.1 数据
数据
通过一系列标准将样本分类两类:一类为无视网膜疾病,另一类为AMD患者,有非AMD的视网膜疾病患者被排除。label来源于电子病历。
预处理
- 考虑到大多数黄斑病变都是在中心区域,因此从每个病人的OCT图像中选择中间的11张图片作为互不相关的独立样本,将他们分别标记为AMD和正常。
- 对所有图像进行直方图均衡化(histogram equalized)
- 考虑到存储的问题,将图片分辨率下采样为192*124
数据集划分
将每批样本的20%的病人数抽取出来组成验证集,剩下的作为训练集。
1.2 模型:
基本模型:VGG16
- 权重初始化: Xaiver
- batch size:100
- 优化算法:SGD(lr = 0.001)
- 交叉验证:每500轮一次
- early stop:验证集的损失开始降低,且精度开始降低(Why??)
遮挡测试(occlusion test)
使用遮挡测试来识别图像中对分类结果贡献最大的区域:
Tips:又一篇论文使用了遮挡测试,可见遮挡测试对于结果的可解释性非常之重要
使用为20×20像素的黑框在原图中移动,当输出概率降低得最多时,表明此时黑框覆盖的区域对分类结果的贡献度最高
性能评估:
本论文从三个角度评估了实验结果,图片级别(image level),黄斑级别(macula level)和病人级别(patient level)
图片级别:以图片分类的准确度来评估模型的优劣,评估结果为正确分类的图片占所有图片的比例
黄斑级别:以黄斑分类的准确度来评估模型的优劣,评估结果为正确分类的黄斑占所有黄斑的比例。单个黄斑的预测概率为该黄斑所包含所有图片的平均概率。例如:黄斑包含三张图片(预测的病变概率分别为0.8,0.7,0.9),则该预测该黄斑的病变概率为(0.8+0.7+0.9)/3=0.8
病人级别:以病人分类的准确度来评估模型的优劣,评估结果为正确分类的病人占所有病人的比例。单个病人的预测概率为该病人所包含所有图片的平均概率。计算方法同黄斑级别
2.实验结果
数据总数:
- 病人总数:9285
- 黄斑总数:43 328
- OCT图片总数:260万
有效数据:
- AMD:52690张(来源于4790例病人)
- Normal:48312张(来源于4392例病人)
训练集:
- AMD:41074张
- Normal :39765张
- 总计:80839张
验证集:
- AMD:11616张
- Normal :8547张
- 总计:20163张
图片级别:
默认阈值:
准确率:86.63%,敏感度:84.63%,特异性:91.54%
使用ROC获取最佳阈值:
敏感度:87.08%,特异性:87.05%,AUC:92.77%
黄斑级别:
默认阈值:
准确率:88.98%,敏感度:85.41%,特异性:93.82%
使用ROC获取最佳阈值:
敏感度:88.63%,特异性:87.77%,AUC:93.82%
病人级别:
默认阈值:
准确率:93.45%,敏感度:83.82%,特异性:96.40%
使用ROC获取最佳阈值:
敏感度:92.64%,特异性:93.69%,AUC:97.46%
遮挡测试
3.结论
- 实验表明,深度学习能够有效地区分AMD和正常病人,且其精度在黄斑级别的诊断和病人级别的诊断上能够有近一步的提升。
- AUC的提升主要来自于灵敏度的提升。而这种提升很有可能是因为:AMD病变通常不会影响整个黄斑,因此AMD病人中通常是混合有正常图片的,病人级别的诊断能够提高整个模型的敏感性。
- 局限性:
- 只使用了符合标准的图片,而真实图片很有可能不符合这些标准(例如质量不好等)
- 只有单中心的测试