医学图像分类_TauMed：医学诊断领域中的图像分类测试数据扩增

最新推荐文章于 2024-04-27 06:58:10 发布

weixin_39794340

最新推荐文章于 2024-04-27 06:58:10 发布

阅读量1.1k

点赞数 1

文章标签：医学图像分类

本文链接：https://blog.csdn.net/weixin_39794340/article/details/111585831

版权

深度学习在医学图像分类中遇到数据不足与不平衡的挑战。本文提出通过传统与先进图像增强技术（如 GAN, SMOTE, AutoAugment）生成平衡数据集，结合DeepGini得分和分类准确性评估方法，提高模型性能。方法包括无损变换、非刚性变换，解决了数据不足和不平衡问题，同时减少了手动标记数据的需求，保护患者隐私。" 125710707,13314277,Django项目结构与URL路由详解：path与re_path函数,"['Django', 'Python', '后端开发']

摘要由CSDN通过智能技术生成

南京大学智能软件工程实验室

iselab.cn

摘要：

深度学习在医学分类方面取得了长足的进步。但是，在许多现实的环境中，用于训练和测试的数据不足且不平衡，深度学习模型将很容易过度拟合且泛化能力很差。并且由于医院和患者的状况并不总是适合于收集数据，并且具有相同疾病的患者数据也并非总是可用，因此在医学领域经常出现需要收集平衡且足够的数据的难题。此外，神经网络需要在大量准确而可靠的数据上进行训练，数据不正确或表示不正确可能会导致系统的性能变差。在这项研究中，我们通过对医学数据集执行传统和先进的增强技术，以生成足够且平衡的图像。同时，我们使用分类准确性和 DeepGini 得分作为度量标准，以评估扩增数据集的有效性。

其视频位于https://www.youtube.com/watch?v=P0aQXoE4g。

关键词：

数据扩增，图像分类，医疗图像

一、绪论

近年来，深度学习在各个领域都取得了巨大的进步和成就。但是，与应用深度学习的其他区域不同，在医疗和自动驾驶等对安全至关重要的领域中，模型的安全性需求通常更高。深度学习模型的安全性在很大程度上取决于训练和测试模型中的数据质量。与 ImageNet 和与其类似的提供数百万个图像的自然图像域数据集不同，医学数据集中可用的训练图像要少得多。足够且平衡的数据成为影响模型质量的关键因素。但是，由于医院和患者的状况并不总是适合于收集数据，并且具有相同疾病的患者数据也并非总是可用，因此在医学领域经常出现收集平衡且足够数据的难题。对于给定的目标疾病，健康的患者要多于不健康的患者。对于给定的患者，通常有比不正常图像更多的正常图像。因此，如何获得足够的平衡图像数据已成为提高模型质量和性能的关键因素。

有多种数据增强方法可用于克服足够数据的问题。这些方法可以分为传统方法(改变旋转，对比度，亮度等)和高级方法(纹理和样式转换等)两类。高级方法包括不同的学习模型和耗时的方法，而传统方法则成本低廉且易于应用。

传统的数据增强通常用于解决数据不平衡问题。通过随机删除样本更多的类的数据来解决数据不平衡问题。但是，这种方法不会增加稀有类的学习能力。

另外，一种新的方法称为特征表示和相似度矩阵的统一学习，该方法使用单个深度卷积神经网络(CNN)对种子标记的数据集进行训练，以从大型未标记的数据集中为每个类别推荐最相似的图像，以供医学专家验证，并将其包含在种子标记的数据集中。它的真实数据增强功能大大减少了昂贵的手动标记时间。它很容易扩展到其他医学图像分类问题。但是，该方法的应用范围有限，算法过于复杂，推荐效率不如我们期望的高。

因此，在本文中，我们从传统扩增技术中选择了无损变换和非刚性变换，以及先进增强技术(如 GAN，SMOTE，AutoAugment)在数据集上生成足够且平衡的图像。同时，我们使用 DeepGini 得分和分类精度作为度量标准，评估扩增数据集的质量并与原始数据集进行比较。

与仅使用传统数据扩增