1. 引言
癌症是一种异常细胞不受控制地分裂损害健康组织的疾病。皮肤或覆盖我们内脏的组织中的癌细胞被称为癌。乳房中的大多数癌是导管癌。侵袭性导管癌(Invasive Ductal Carcinoma, IDC)始于乳管,侵犯乳房周围纤维组织,晚期可通过血液扩散至淋巴结或身体其他部位,威胁患者生命。这种恶性肿瘤的治疗取决于它的分期、严重程度和它所属的亚型。事实证明,早期诊断有助于减少治疗过程中的并发症,从而提高患者的生存几率。
IDC癌的诊断可基于病理任务,包括显微镜观察和多片载玻片检查。但是这种测试方法既耗时又容易出错。因此,为了辅助测试过程,可以采用计算机辅助诊断(CAD)测试方案,主要涉及基于深度学习(DL)的方法。对组织病理学图像进行图像分析是鉴别和识别癌症亚型的一种有效方法。
组织病理学图像是在特定放大倍数(x10, x20或x40)下染色活检样本的WSI数字化扫描。研究了IDC阳性病例的组织病理切片图像。深度学习模型可以根据从组织病理学图像中提取的代表乳腺癌组织成分的特征来学习对阳性样本进行分类。本文中,提出了一种由基于ResNet的特征提取器组成的深度学习模型,该模型可以有效地提取组织特征,分类器头部使用这些特征对IDC组织病理图像样本进行准确分类。
1.1 机器学习(ML)方案
预处理的重要性:ML算法通常需要在预处理后的数据集上进行训练。预处理的方式和性质对ML模型的性能有重要影响。
线性回归与ANN:Turgay等人[8]比较了线性回归和人工神经网络(ANN)在癌症样本分类中的应用。
SVM与图像增强:M.A.Awasthy等人[9]提出了一种基于支持向量机(SVM)的模型,其中使用图像增强技术对组织病理学图像进行增强,并通过分割在预处理步骤中提取关键特征。这些特征随后被输入到分类器中。通过分割进行特征提取的预处理步骤有助于提高模型性能,与其他ML模型(如KNN和ANN)相