基本信息
- 题目: 使用弱监督和不平衡数据进行糖尿病视网膜病变诊断的高效多
核多示例学习 - 等级: 2018 年发表在医学顶刊Computerized Medical Imaging and
Graphics (CMIG) 。 - 代码: 暂无
- bib:
@article{cao2018efficient,
title={Efficient multi-kernel multi-instance learning using weakly supervised and imbalanced data for diabetic retinopathy diagnosis},
author={Cao, Peng and Ren, Fulong and Wan, Chao and Yang, Jinzhu and Zaiane, Osmar},
journal={Computerized Medical Imaging and Graphics},
volume={69},
pages={112--124},
year={2018},
publisher={Elsevier}
}
1. 主要思想
1.1 摘要
1.1.1 目标
糖尿病视网膜病变(DR) 是糖尿病最严重的并发症之一。早期发
现和治疗DR 是关键的公共卫生干预措施,可以显着降低视力丧失的风险。
如何有效筛查和诊断视网膜眼底图像,以便及时发现视网膜病变是一个重大
挑战。在传统的DR 筛查系统中,微动脉瘤(MA) 和出血性(H) 病变检测的准确性决定了最终的筛查性能。该检测方法产生大量假阳性样本以保证高灵敏度,而由于可疑病灶缺乏标签信息,分类模型无法有效去除假阳性。
1.1.2 方法
为了解决DR 诊断中的监督学习问题,我们将弱监督多类DR 分级制定为多类多实例问题,其中每个图像(包) 被标记为健康或异常,并且由未标记的候选者组成病变区域(实例)。具体来说,我们提出了一种基于图核(graph kernel) 的多核多实例学习方法。此外,我们开发了实例级别的欠采样和包级别的过采样,以提高多实例学习在DR 诊断中的性能。
1.1.3 结果
通过对不同基线方法和来自Messidor 数据的最新方法的经验评估和比较,我们说明所提出的方法报告了良好的结果,总体分类准确度为0.916,AUC 为0.957。
1.2 引言
微动脉瘤和出血量(HMAs)被视作糖尿病视网膜病变的前兆。而这两
者的发现都依赖于CT 图像的局部标注。但是HMAs 的检测算法设计具有
以下的困难:
- 医学专家并没有足够的时间来为机器学习算法做大量的图像标注
- 样本不平衡问题,“健康” 样本远比三种“病变” 样本少得多
- 假正样本(false positive) 的大量出现。为了提升DR 的检测率,之前
的检测算法会产生很多假正样本。即将很多非病变区域标记为病变区
域。然后再做假正样本的削减,最后分类。
对于困难一,多示例学习可以解决。因为传统算法大多将整张图片看做一个实例。而多示例将图像看作一个包。
对于困难二,摘要部分提到的两种采样方式可以解决。
对于困难三,文章提出的多核多示例学习框架可以解决。
以下为传统算法和文章所提出算法的流程对比图:
以下为算法的整体框架图,分为针对平衡数据和不平衡数据。