使用超声成像进行乳房分类和检测被认为是计算机辅助诊断系统中的重要一步。传统的增强方法受到严格限制,除了传统的增强之外,我们还使用生成对抗网络(GAN)进行数据增强的新方法。我们通过将传统增强与基于 GAN 的增强相结合,实现了更高的准确度。
使用从两个不同的超声系统获得的两个乳房超声图像数据集。第一个数据集是我们从开罗(埃及)Baheya 妇女癌症早期检测和治疗医院收集的数据集,我们将其命名为(BUSI),指的是乳房超声图像(BUSI)数据集。它包含 780 张图像(133 张正常图像、437 张良性图像和 210 张恶性图像)。而数据集(B)是从相关工作中获得的,它有 163 个图像(110 个良性图像和 53 个恶性图像)。
在两个数据集上进行评估时,使用增强方法和深度学习分类方法(尤其是迁移学习)可以实现整体增强。
1. 介绍
医学成像是诊断多种疾病和分析实验结果的重要工具。生物医学成像是整体癌症护理基础的一部分。数字乳腺X线摄影Digital Mammography(DM)是乳腺癌诊断中最常用和最实用的技术。DM 成像在致密乳房中存在一些弱点,其中肿瘤可能被周围组织隐藏(致密组织与肿瘤相比具有类似的衰减)。
在实践中,超声 (US) 成像是 DM 的最佳替代方法,由于其敏感性、安全性和多功能性,它被用作乳腺癌分类和检测的补充方法。然而,超声成像的弱点是它依赖于手工,更多地依赖于放射科医生。由于其难度和散斑噪声的出现,解释超声图像需要专业放射科医生。因此,计算机辅助诊断(CAD)可以帮助放射科医生在超声上对乳腺癌进行分类和检测,减少超声成像手动依赖性的影响。
乳房超声图像质量极大地依赖于采集过程,并且各种超声系统之间存在很大的差异,影响算法实现的输出。输出还受到肿瘤或微钙化的大小、位置和外观的影响。
在数据不足的情况下训练深度模型通常会导致过度拟合,因为高容量的模型能够“记住”训练集。为了缓解这个问题,技术可以分为两大类:(1)正则化技术,旨在限制模型的容量(例如,dropout和参数范数惩罚)和(2)数据增强技术,旨在增加数据集的大小。
GAN 是一类无监督神经网络,最常用于图像生成。最常见的增强形式包括翻转、缩放、平移、旋转、模糊和锐化。这种转换的目标是获得包含与原始图像相同的语义信息的新图像。
虽然增强确实有助于神经网络更有效地学习和泛化,但在大多数情况下,增强技术仅限于图像上的微小变化,因为更多“重度”增强可能会损坏图像的语义内容。
研究背景和意义
尽管在使用不同类型的方式对癌症肿瘤进行分类和检测的过程中有很多科学研究,但由于缺乏公共基准数据集,乳腺超声成像的研究很少。我们利用数据增强生成对抗网络(DAGAN)来使我们的数据集(BUSI)和数据集(B)更大。超声扫描对人体是安全的,而DM和其他筛查技术可能无法达到与超声成像相同的安全标准。
论文贡献
新颖的增强技术,它克服了上述限制,并且能够使用 DAGAN 从头开始生成真实、高质量的图像来增强任何给定的数据集。
2. 相关工作
乳腺癌超声图像分类
CNN(卷积神经网络)
Huynh 等人[15] 评估了利用预训练 CNN的转移特征对乳腺癌超声图像中的癌症进行分类的性能,并用包括人类设计特征在内的先前方法检验这种转移学习方法。
使用由 1125 个样本和 2392 个感兴趣区域 (ROI) 组成的乳房超声图像数据集。每个 ROI 都被注释为恶性或良性。使用预先训练的 CNN 从每个 ROI 中提取特征,并用于训练支持向量机 (SVM) 分类器来区分良性肿瘤和恶性肿瘤。
human-designed features(人类设计的特征)通常指的是由专家或领域知识根据数据的特性手工创建和选择的特征。
SVM的目标是找到一个超平面,使得不同类别的数据点能够被这个超平面分开,并且这个超平面到各类别中最近的数据点的距离最大化。这样的超平面被称为最大间隔超平面,而距离超平面最近的数据点被称为支