TMI-2022 | 标签高效式的细胞核图像分割

关注公众号,发现CV技术之美

深圳市大数据研究院提出了一种标签高效式地细胞核图像分割方法 (Which Pixel to Annotate: a Label-Efficient Nuclei Segmentation Framework),被医学图像分析顶级期刊IEEE Transactions on Medical Imaging接收。

该方法包括三个部分:一个基于一致性的样本选择算法、基于单个样本对的有条件生成器、一个半监督图像分割网络模型。该方法仅使用不到5% 的标注的情况下,在多个病理图像数据集上达到了接近全监督方法的细胞核分割性能。

  • 文章链接:https://arxiv.org/abs/2212.10305

  • 代码链接:https://github.com/lhaof/NuSeg

      01      

问题背景介绍

细胞核分割任务,是指标记出病理图像中每一个属于细胞核的像素。细胞核分割的结果可以提供基本的细胞核视觉信息和形态学特征例如尺寸,形状或者颜色。这些信息和特征不仅有助于病理图像的进一步处理(例如分类或者组织分割),也有助于病理医生诊断分析病情的发展(例如癌症的诊断评估和预后)。

因此,细胞核分割在计算机辅助诊疗系统中是至关重要的一环。然而,病理图像复杂的背景,细胞核杂乱的分布都极大地增加了精确分割细胞核的难度。同时,训练一个精确分割细胞核的模型通常需要大量的有标注数据(细胞核的数量达到数万级别),这也显著地增加了病理医生标注的负担和时间经济成本。

为了解决现有技术需要大量标注数据的问题,本文提出了一种基于一致性的样本块选择算法。该算法挑选极少量的具有高代表性和内部纹理一致性的无标签样本块进行标注。为了解决现有技术在标注较少时分割性能较差的问题,本文提出了一种有条件输入的基于单对训练图片的对抗生成模型CSinGAN来对训练数据进行扩增。为了充分利用大量的无标签数据,本文通过和半监督方法-伪标签生成的结合来利用无标签数据。实验证明文提出的框架利用不到百分之五的标注,在三个公开数据集上达到了接近全监督方法的性能。

      02      

方法介绍

ed66fb3662725243c13171ae08a3b203.png图1. 标签高效式的细胞核图像分割方法流程图

2.1 整体框架

本文提出的标签高效式的细胞核图像分割框架的框架如图1所示。从左到右,首先进行无标签病理图像数据的采集。其次,通过本文提出的基于一致性的样本块选择算法,少量的小尺寸的病理图像样本块将会被选择并且由病理医生进行标注,标注之后的掩膜和选择的样本块将会组成样本对。

每一对样本对将会作为本文提出的有条件输入的基于单对训练图片的对抗生成模型的训练样本。经过对抗生成模型的训练,大量的训练样本对将会被模型生成并且加入分割训练集。最后,所有的标注的真实样本对加上模型生成的伪样本对将会输入基于伪标签的半监督细胞核分割模型进行训练,得到能够精准分割病理图像细胞核的模型。

6fd215794d74ede6b3ca89dc6b76ca24.png

图2. 基于一致性的样本块选择算法

2.2 基于一致性的样本块选择算法(CPS)

为了定位最有益于细胞核分割任务的病理图像样本块区域,我们定义两种挑选参数。一种叫做代表性,另一种叫做内部一致性。代表性指的是被挑选样本块与整个数据集中的其他的样本块之间的关系。为了减轻对抗生成模型生成伪样本的复杂程度,我们还考虑选择内部一致性更高的样本块。内部一致性是指样本块内部各区域具有相似的纹理和细胞核形态。高内部一致性有助于减少对抗生成模型学习的难度,减少干扰,有助于模型的收敛,也能够更有效生成高质量的图片。

CPS算法可以分成三部分:1.小尺寸样本块采样;2.双层聚类;3.分数计算。在小尺寸样本块采样部分,我们从原始的病理图片数据集中利用滑动窗口均匀地采样样本块。在双层聚类部分,执行了两次K-means聚类。第一次聚类为粗聚类,将小尺寸样本块聚类成a857a668844a494d928d1da2358bdb48.png个聚类簇。为了计算内部一致性,每一个聚类簇中的小尺寸样本块又会被再裁切成四个更小的子区域进行第二次聚类得到fba9846dd0b2b602b7c166e7ac9b1cdb.png个聚类簇,也叫作细聚类。经过两次聚类,最终可以得到54b37ad1794b8468feaf26f01e7b3e15.png个聚类簇。在分数计算部分,对每一个粗聚类得到的聚类簇a16b3316045bf6650d4556e060fef053.png,我们会计算该簇中所有的小尺寸样本块的代表性和内部一致性分数,最终选择一个分数最高的样本块。计算公式如图2的右半部分所示。基于一致性的样本选择算法最后会为粗聚类的每一类挑选一个样本块,最终得到a4c9a691384b8e0de16366ee9af332b2.png个样本块。

0d2d19d231687e0cff58404442acb3b7.png

图3. 有条件输入的基于单对训练图片的对抗生成模型

2.3 有条件输入的基于单对训练图片的对抗生成模型(CSinGAN)

在得到标注好的小尺寸样本块之后,本文提出了一个有条件输入的基于单对训练图片的对抗生成模型(CSinGAN)对每一对样本块分别进行数据增强。每个CSinGAN模型会使用一对标注好的样本块和本文内方法大量简单构建的伪掩膜。其结构如图3所示,该模型包含一个多尺度的生成器和一个多组件的判别器。生成器和判别器分别表示为27bdf6dc0d54de2618dfdc6057f64986.pnga3aaf9d88977146066c34542f6305486.png。多尺度有条件生成器可以表示为公式(1):

08ad60c5d6a9557de3ed13ba839ff033.png  (1)

其中,f8d0a5a93f0b9e99ec2005980ea89b90.png7088beb912e5e888bfb05bb634df421f.png表示真实的标注掩膜和本文构建的伪掩膜。当计算bd445a06104bb31d7e6d7a0a1043045b.png时,所有的734fd4babd73f4f6383cf28147a92da9.png(f5c7a6c887aeddfae07b85a88a928e01.png)都是通过改变6e539b92550150ce9b63b34c77f10f7d.png的尺寸得到的。9a3400bf35174364425153c4df61a3e9.png416ab4aa2c24b251560a1568ad3757db.png表示三通道的高斯噪声图像。每个尺度的生成器和判别器都会计算一个重建损失和判别损失来优化模型,如公式(2)所示:

6930002ce021a23557a859509a7546c9.png) (2)

其中,第二项94aee898160650ebb9cedc8c3099054e.png为重建损失,d74fcb7b1761b56389cd302c0baeed61.png为生成图像,9c7c1aa2a14df1b7367e5b5a3d087eb2.png则为真实图像。对于判别损失,本文设计了一种新型的多组件的判别器。该判别器将输入图像分离为前景,背景和原图三类图像分别进行判断。判别器包含三个子网络,分别对三类图像进行判别,彼此之间互不参数共享。整个判别过程可以用如下公式(3)表示:

1de2adc2bdaf6b8b88ac1994d0ff4ffc.png (3)

其中,e09df6136a6a75d6ba7d1441a0d9eac1.png指第n个尺度下的伪掩膜,36ea17052c52d00d48bd170f7a3cee94.png指真实掩膜。c6e52282310329e9660c2ad91042caeb.png指按元素相乘操作,aa61cbc5b70002eaf382b324b00ee704.png指的就是提取74c0bc8f8f387d8e0547d15970252e2c.png的背景区域和前景区域。这样不同的子网络d8c6e6075203f09dee5e9502cacc371e.png就会关注于不同的生成区域的真实程度。这有助于生成和伪掩膜中细胞核位置精确对应的生成图像。

2.4 基于伪标签的半监督训练方法(Plabel)

在得到大量的生成的伪训练图片对之后,本文引入了基于伪标签的半监督训练方法来充分利用无标签数据。伪标签方法通常使用一个预训练的模型来对无标签数据进行预测。预测出来的结果可以和原始数据结合作为一种标签参与新一轮的训练来提升模型的性能。实验证明,本文可以结合其他的半监督方法或细胞核分割模型使用来提升性能。

      03      

实验结果

3.1与全监督方法的比较

ab0ad7ec723424df8b0981ee44fafd73.png表1. 本文框架和全监督方法比较

如表 1 所示,本文整体框架结合先前分割方法在使用不到5%标注的情况下,在TCGA-KUMAR数据集上和最强的全监督方法Hover-net仅差距0.2%分割指标AJI,在TNBC数据集上达到了超过Hover-net的效果。在MoNuSeg数据集上得到了略低于Hover-net约1.17% AJI的结果。这充分显示了本文在缺少标签的病理图片分割应用场景的优势,即极大了减少了标注成本。

3.2 各组件的效果

c33ad172c1cb557888195c7c2169234e.png

表2. 使用不同组件在TCGA-KUMAR数据集上的结果

如表2所示,CPS表示基于一致性的样本选择算法,MRCNN指的是分割模型Mask-RCNN,CSinGAN指的是有条件输入的基于单对训练图片的对抗生成模型,Plabel表示伪标签训练方法。从结果可以看出,CSinGAN方法使分割模型在TCGA-Kumar数据集上提升了1.34% AJI。本文提出的样本选择算法CPS相较随机采样方法提升了约2.83% AJI。加入基于伪标签的半监督训练方法之后,本文的分割性能可以进一步提升4.54% AJI。

3.3 CSinGAN方法对比同类生成方法

c5b597cabbea73efe240a3153827a285.png

表3. CsinGAN比较其他样本生成方法。

如表3所示,在使用CPS挑选的样本进行样本生成,使用Mask-RCNN作为分隔模型的情况下。CSinGAN相较主流的样本生成方法cycleGAN有约1% AJI的提升。

      04      

总结

本文构建了一种全新的标签高效式的细胞核分割框架能够使用不到百分之五的标注达到或接近全监督方法的分割效果。其次,本文提出了一种基于一致性的样本选择算法,该算法挑选的样本能够使模型分割精度更高。此外,本文提出了一种新颖的组件式判别器,大大提高了生成对抗模型的图像生成质量。本文显示了样本选择的重要性,为使用少量标注训练医学影像模型提供了新的思考。‍

354f62a2bae47db2ca967c7f2c93de34.jpeg

END

欢迎加入「医学影像交流群👇备注:Med

a2396d96ac25df606103695be4aa3e5d.png

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值