乳腺癌组织病理图像分类

应用卷积神经网络对乳腺癌组织病理图像进行分类

 原文地址:https://ieeexplore.ieee.org/abstract/document/8122889/citations#citations

1.数据集介绍

Breakhis数据库包含良性和恶性乳腺肿瘤的显微活检图像。通过2014年1月至2014年12月的临床研究收集图像。在这段时间内,临床症状为BC所有患者都被邀请到巴西P&D实验室参与研究。机构审查委员会批准了这项研究,所有患者都给予了书面知情同意。所有的数据都是匿名的。

样本来自乳腺组织活检幻灯片,用苏木精和伊红(HE)染色。样本通过外科(开放式)活检(SOB)采集,能用于组织学研究,并由P&D实验室的病理学家标记。本工作中使用的制备程序是标准石蜡工艺,广泛应用于临床常规。主要目的是保存原始组织结构和分子组成,以便在光学显微镜下观察。完整的制备程序包括固定、脱水、清除、渗透、嵌入和修剪等步骤。为了安装在载玻片上,使用切片机切割约3微米的部分。染色后,用玻璃盖玻片覆盖各部分。然后解剖病理学家通过显微镜下组织切片的视觉分析来识别每张载玻片中的肿瘤区域。每个病例的最终诊断由经验丰富的病理学家作出,并通过免疫组化(IHC)分析等补充检查予以确认。

采用奥林巴斯BX-50系统显微镜,将放大倍率为3.3倍的中继透镜与三星数码彩色相机SCC-131AN耦合,从乳腺组织切片中获取数字化图像。图像是在3通道RGB(红-绿-蓝)真彩(24位色深,每个色通道8位)色空间中使用放大系数40X,100 X,200 X,400 X获得的,对应于物镜4 X,10 X,20 X,40 X。

2.本文算法

本文提出的方法旨在处理组织病理学BC分类中常用的高分辨率图像。将现有的深度神经网络模型用于更大的图像可能会导致更复杂的体系结构,具有更大的参数集(越来越大的层),从而大大增加模型的复杂性。因此,微调和培训架构参数所需的时间可能会变得非常长。为了解决这个问题,本文提出的方法是基于随机抽取的用于训练的补丁,以及用于识别的这些补丁的组合。

为了了解前一节中描述的CNN参数,只使用图像的小补丁进行培训。主要的想法是从高分辨率图像补丁中提取尺寸接近于CIFAR数据集的补丁。既然我们要处理纹理,主要前提是

这些补丁可以包含足够的信息来训练模型,前提是从每个图像中提取一组合适的补丁。

基于Hafemann等人报告的结果。通过减小图像的维数来获得最佳效果,在这项工作中,原始的700×460图像被减少到350×230,使用像素面积关系重新采样。之后,我们用两个不同的策略。在第一个例子中,我们使用了一个50%重叠的滑动窗口,而在第二个例子中,补丁是随机抽取的,补丁之间没有重叠控制。此外,根据报告的结果,我们评估了两种不同的图像补丁大小(32×32和64×64)。图5显示了调整大小的图像以及32×32图像补丁。

在实践中,该方法将翻译不变性引入(a)(b)图5。(a)放大40倍获得的乳腺恶性肿瘤和(b)32×32贴片图像。该模型起到了规范化的作用,防止了模型对训练集的过度拟合。滑动窗口策略允许32×32和32×32的补丁之间50%的重叠,从而分别产生260和54个图像补丁。另一方面,考虑到随机抽取策略,对于两个补丁大小,我们已经固定了从每个输入图像中抽取任意数量的1000个补丁。表3总结了我们在工作中评估的补丁程序图像策略。 

 

这里使用监督型的训练模式,在实际的语音和图像识别系统中很常见。在监督模式下,随机梯度下降(SGD)方法与反向传播法(用于计算梯度)和最小批量大小为1,用于更新网络参数,从10-6的学习率开始,结合0.9的动量项和4-5的权重衰减。CNN接受了8万次重复训练。

以提取的斑块作为输入对模型进行训练。然而,所采用的架构假定一个标准的预处理来降低输入图像的亮度(为了亮度标准化),要么减去确定的平均图像,要么减去每个通道的平均像素值。因此,我们用放大因子计算了所有提取斑块的平均图像。最后,我们从每个输入补丁中减去这个平均图像,然后再将其输入CNN。

由于模型是在图像的补丁上训练的,所以我们需要一种策略,将原始测试图像分割成补丁,运行它们通过模型并结合结果。通过从图像中提取所有可能的补丁,可以获得最佳结果,但这一点计算量太大。相反,我们选择提取图像的网格补丁,即所有不重叠的补丁集,这在实践中证明了分类性能和计算成本之间的合理平衡。

运行模型时,每个补丁输出给定补丁图像的每个可能类的概率。为了结合给定测试图像的所有补丁的结果,我们测试了三种不同的融合规则,并获得了最佳结果。换句话说,对一个给定的测试图像的预测是一个类,它最大化了图像所有补丁的概率之和。

 

5. 实验结果

Breakhis数据集分为训练集(70%)和测试集(30%)两组。为了保证分类器对未知患者的通用性,对数据集进行了拆分,以便用于构建训练集的患者不用于测试集。这项研究的结果是五次试验的平均值。该协议独立应用于四种可用放大倍数中的每一种。在讨论医学图像时,有两种方法可以报告结果。在第一种情况下,决策是基于患者的,因此,识别率是在患者级别计算的。设n p为患者p的癌症图像数。对于每个患者,如果n rec癌症图像被正确分类,可以将患者评分定义为:

 

在第二种情况下,识别率是在图像级别计算的(即不考虑患者信息),因此提供了一种方法来单独估计CNN模型的图像分类精度。让n都是测试集的癌症图像数。如果系统正确分类n个rec癌症图像,则图像级别的识别率为:

 

  • 2
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值