论文题目:Single Model Deep Learning on Imbalanced Small Datasets for Skin Lesion Classification
论文链接:
中文题目:基于非平衡小数据集的单模型深度学习皮肤病变分类
0摘要
本文提出了一种新的基于单一模型的策略,用于小数据集和不平衡数据集的皮肤病变分类。首先,在不同的小型和不平衡数据集上训练各种DCNNs,以验证中等复杂性的模型优于较大的模型。其次,通过加入正则化DropOut和DropBlock来减少过拟合,并提出一种改进的RandAugment增强策略来解决小数据集中样本代表性不足的缺陷;最后,引入了一种新的多加权新损失(MWNL)函数和端到端累积学习策略(CLS),克服了样本大小和分类难度不均的挑战,减少了异常样本对训练的影响。通过将Modified RandAugment、MWNL和CLS相结合,我们的单一DCNN模型方法在不同皮肤镜图像数据集上的分类精度与多个集成模型相当或更高。我们的研究表明,该方法能够在低计算资源和推理时间成本下实现高分类性能,可能适合在低资源环境下在移动设备中实现皮肤病变和许多其他恶性肿瘤的自动筛查。
01介绍
数据集:
近年来,通过对深度卷积神经网络(deep convolutional neural networks, DCNN)进行端到端训练,皮肤癌自动分类的性能显著提高。尽管这些有希望的研究进展,进一步提高诊断的准确性受到一些限制。首先,大多数可公开访问的皮肤病变数据集没有足够的样本量。有些数据样本皮肤病变对比度低、边界模糊以及毛发、静脉、尺痕等干扰的情况下,足够的样本量是适当训练DCNN模型以拟合未知数据特征的关键。鉴于可用的临床数据数量有限,改进在小数据集上训练的DCNN模型以达到接近在大数据集上训练的性能是很重要的。
训练数据样本存在的问题:在短时间内积累大量高质量和一致性的临床数据有时是困难的;几乎所有可公开访问的皮肤病图像数据集都存在严重的数据不平衡问题。由于不同类型皮肤病变的发生率和成像可及性不同,不同疾病类别的样本分布通常不均匀。本文在以下四个数据集上实现了所提出的方法:ISIC 2018 , ISIC 2019 , ISIC 2017和七点标准评估(7-PT)数据集,实验在所有这些数据集上都取得了出色的性能。
模型结构:
对于小图像数据集,如果使用大规模图像数据集上的分类任务的AlexNet[19]或者Re