基于深度学习的组织病理学图像IDC检测方法

最新推荐文章于 2024-09-14 20:06:03 发布

托比-马奎尔

最新推荐文章于 2024-09-14 20:06:03 发布

阅读量1.2k

点赞数 29

分类专栏： CNN 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_47896523/article/details/140401856

版权

CNN 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

乳腺癌可以通过对浸润性导管性乳腺癌(IDC)和浸润性小叶性乳腺癌(ILC)的内部组织区域进行检查来确诊。因此，早期诊断乳腺组织异常是至关重要的，以减少风险，使快速和有效的治疗。本研究旨在利用所提出的基于深度学习的算法，利用组织病理学图像，建立一个综合性的浸润性导管癌(invasive ductal carcinoma, IDC) CAD系统。该方案从零开始开发了ConvNet-A、ConvNet-B和ConvNet-C三种不同的CNN模型，分别考虑了8层、9层和19层。此外，还针对四种流行的机器学习模型(如支持向量机(SVM)、k近邻(KNN)、随机森林(RF)和逻辑回归(LR))进行了性能验证。

实验分两步进行;首先，在不同的样本量下对所提出的CNN模型进行了评估，在10万张样本图像下，ConvNet-C模型的准确率达到了88.7%，灵敏度达到了92.6%。其次，SVM的分类精度在5000张以上时达到最好，因为它有一个正则化参数，避免了过拟合。

1. 引言

一些新细胞是在不需要时形成的，旧细胞不会死亡以允许新细胞取代它们。这种不寻常的细胞创造形成了大量的组织，也被称为肿瘤，它进一步分为几个组和分类，其中之一就是乳腺癌。另有浸润性导管乳腺癌(Invasive Ductal-Breast Carcinoma, IDC)和浸润性小叶乳腺癌(Invasive-lobular- Breast Carcinoma, ILC)两种。IDC是乳腺最常见的一种癌。侵袭性是指癌细胞已经扩散到乳腺的邻近组织。乳腺乳管中的癌称为IDC，然后从乳管膜的一侧突破到另一侧，并扩散到乳房下方的脂肪组织中，如图1(a)和图1(b)所示的组织病理学图像。

2. 相关工作

乳腺癌的早期检测提高了生存的可能性，并且有可能有恢复的机会。病理学家可以通过组织病理学图像检查它，以确认扩散的百分比，并使其图像处理机械化，并使用数字图像算法技术。在此背景下，Doyle等[10]利用图像分析建立了一种数字化的组织病理学，参照乳腺癌的低分级和高分级，准确率分别为95.8%和93.3%。Osareh等[23]提出的方法采用k近邻法区分良恶性病例，使用两种主要乳腺癌数据集的SVM分类器准确率分别达到98.80%和96.33%。

SVM、KNN和PNN是三种分类器，用于对1 ~ 3级恶性图像进行分类。KNN、SVM和PNN分类器的交叉验证准确率分别为86%、85%和90%。Kowal等[15]提出了三种不同的聚类算法，分别是神经网络、模糊c均值、k均值和高斯模型。三种不同的分类器使用这些提取的特征对图像进行分类。输出精度达到96% - 100%之间。Kooi等[17]利用计算机辅助诊断系统对乳腺样本活检图像进行诊断，并将其验证为导管内乳腺癌的分类。评价的重点是DCIS和UDH的导管内图像的分类。自动诊断过程包括颜色空间变换、核分割、分水岭运算、特征提取和降维等步骤。在支持向量机的帮助下进行分类，实验的准确率为89.4%。

2.1 相关方法

不同的深度学习算法已被用于检测乳腺组织病理学图像中的癌症。以下是过去在乳腺组织病理学图像中用于检测癌症的一些技术。Roa等[25]提出了卷积神经网络技术，数据集来自162例患者。计算输出结果:与使用随机森林的机器学习技术相比，F-score为71.80%，精度为84.23%。机器学习的输出结果分别为67.53、78.74%和RGB直方图66.6%、77.24%。

Jun等[33]提出了深度学习技术堆叠稀疏自编码器，从像素学习特征并区分它们。500张组织病理学图像和3500张手工分割图像。结果f值为84.49%，召回率为78.83%。Janowczyk等人[16]提出了数字病理学的深度学习，是开放框架的一个来源(Caffe)。结果F-score为0.764。Bayramoglu等[6]提出了卷积神经网络。两种结构，第一种是单任务分析恶性肿瘤，第二种是多任务分析恶性肿瘤和放大水平。使用的数据集是BreakHis数据集。

Bejnordi等[12]提出了一种卷积神经网络。采用646份组织样本对系统进行评价，得到ROC曲线为0.92。Spanhol等[9]使用BreakHis数据集提出了深度学习技术的方法。Couture等[1]将深度学习应用于被检查的患者，可以从分子检测中获益。该系统训练了571张图像，并对288张图像进行了评估，准确率达到75%。Zainudin等[13]提出了3种不同的分层网络6,13和17层。17层的精度达到了84.4%。gegeer等[31]提出了包含240张图像的4个卷积网络。准确率达到55%，并由45名病理学家进行评估。Jiamei Sun等[14]提出了活检图像的调整模型。通过对模型进行微调，对数据集进行了评估和分解。Benzheng等[4]开发了一种名为Bi-CNN模型的新技术，准确率达到97%。Sharma等人[30]提出了两种机器学习方法，使用BreakHis数据集实现自动多分类技术。提取的特征用于训练，而VGG16, VGG 19和ResNet 50用于提取特征。支持向量机的VGG 16精度最高。Monjoy等[9]开发了有丝分裂检测的监督技术，准确率达到92%，F-score为90%。

2.2 深度学习方法对IDC检测的限制

首先，大多数密集的研究都没有得到专家医生的临床证实，而且准确性很好。其次，所开发的方法可能不适用于其他集IDC数据集，因为它依赖于系统，识别有限。第三，大多数研究都是用较小的数据集进行的，因为没有公开的大型和标记的数据集。最后，大多数研究都没有集中在发展经济上可行的方法来防治这种疾病。这些挑战需要解决，以进一步开发更准确和经济可行的模型，用于使用DL方法识别IDC疾病。为此，本文旨在设计并推广一种由三种不同的CNN模型组合而成的具有不同超整定参数的多类分类模型。

本研究提出的CNN架构结合了三种不同深度的CNN块（ConvNet-A、ConvNet-B和ConvNet-C），这些块分别包含8层、9层和19层，随后是一个精心调整的全连接层。除了架构设计外，该模型还探究了多种超参数，如训练轮数（Number of Epochs）和逻辑回归类型（如二项、多项和序数等），以验证所提方案的有效性。在验证过程中，还采用了准确率、灵敏度、特异性、精确度和分类误差等多种性能指标来评估模型的效果。最终，将所提方案与一些最新的先进CNN模型以及四种流行的机器学习模型（KNN、SVM、随机森林和逻辑回归）进行了比较。实验结果表明，无论超参数如何变化，所提方案的表现均优于现有的先进CNN模型和四种机器学习模型。本研究的主要贡献可概括如下：

3. 材料和方法

3.1 所用数据集

乳腺癌的常见亚型是浸润性导管癌(Invasive Ductal carcinoma, IDC)。病理学家通常先关注包含IDC的区域，然后再对整个标本进行严重程度的评估。实验数据集取自Kaggle数据集，该数据集包含162张完整的载玻片图像[25]。乳腺组织样本共277524块，大小为50 × 50 × 3，其中非IDC(阴性)斑块198738块，IDC(阳性)斑块78786块，如图2所示。

3.2 提出的方法

3.2.1 预处理

为了克服人工提取特征的问题，提出了一种将图像的每个像素作为空间特征的方法。预处理阶段遵循两个步骤:规范化和数据增强。

数据的归一化是必不可少的一步，因为CNN模型可能学习得更快更稳定。因此，在本研究中，输入图像的像素值在0-1范围内进行归一化处理。所考虑的数据集中使用的图像是灰度图像，通过将像素值乘以1/255来实现重新缩放。每张组织病理学图像被转换成7500 × 1的单一矢量形式。

数据增强：深度学习中不同的CNN模型需要大量的数据进行有效的训练。然而，在考虑的数据集中，可用的训练组织病理学图像在数量上非常少。在使用深度学习算法对医学图像进行分析时，这一直是一个主要问题。为了克服这个问题，采用了数据增强技术。增强在数据集级别作为一种标准化的方法，并进行了一些更改[2]。本研究所采用的训练图像增强技术如图4所示。

使用以下技术对图像进行增强:(1)旋转(顺时针旋转30度)(2)缩放15%，(3)水平翻转，(4)添加均值(0)和方差(0.25)的高斯噪声。

3.2.2 加工处理

在处理阶段，采用深度学习算法对IDC和非IDC的组织病理图像进行分类。设计了三种不同的分层卷积神经网络模型。用于设计网络的层数为8层(ConvNet-A)、9层(ConvNet-B)和19层(ConvNet-C)。最后，将提出的CNN模型的结果与现有算法和机器学习技术进行比较。对于机器学习部分，考虑了K近邻(K- nn)、支持向量机(SVM)、逻辑回归(LR)和随机森林(RF)四种分类器[27]。所有四种分类器都在相同的数据集上实现。