Cytomorphology(细胞形态学)
- Gao Z, Mao A, Wu K, et al. Childhood leukemia classification via information bottleneck enhanced hierarchical multi-instance learning[J]. IEEE Transactions on Medical Imaging, 2023.
- Ngasa E E, Jang M A, Tarimo S A, et al. Diffusion-based Wasserstein generative adversarial network for blood cell image augmentation[J]. Engineering Applications of Artificial Intelligence, 2024, 133: 108221.
Gao Z, Mao A, Wu K, et al. Childhood leukemia classification via information bottleneck enhanced hierarchical multi-instance learning[J]. IEEE Transactions on Medical Imaging, 2023.
1.摘要
白血病分类依赖于详细的骨髓的细胞形态观察 涂抹。然而,应用现有的深度学习方法 对它来说,它面临着两个重大限制。首先,这些方法需要在单元级别具有专家注释的大规模数据集才能获得良好的结果,并且通常存在泛化能力较差的问题。其次,他们简单地将骨髓细胞形态检查视为一项多分类细胞分类任务,从而未能利用不同等级白血病亚型之间的相关性。因此,骨髓细胞形态的评估作为一个耗时和重复的过程,仍然需要由有经验的细胞学家手动完成。近年来,多示例学习(MIL)在数据高效的医学图像处理方面取得了很大进展,它只需要患者级别的标签(可以从临床报告中提取)。针对上述局限性,本文提出了一种层次化的MIL框架,并为其配置了信息瓶颈(IB)。首先,为了处理患者级别的标签,我们的分层MIL框架使用基于注意力的学习来识别不同层次中具有高诊断价值的白血病分类细胞。然后,遵循信息瓶颈原理,提出了一种层次化的信息库来约束和提炼不同层次的表示,以达到更好的精确度和通用性。通过将我们的框架应用于一个大规模的儿童急性白血病数据集以及相应的骨髓涂片图像和临床报告,我们表明它可以识别与诊断相关的细胞,而不需要细胞级别的注释,并且性能优于其他比较方法。此外,在独立测试队列上进行的评估表明,我们的框架具有很高的通用性。
三级目录
Ngasa E E, Jang M A, Tarimo S A, et al. Diffusion-based Wasserstein generative adversarial network for blood cell image augmentation[J]. Engineering Applications of Artificial Intelligence, 2024, 133: 108221.
摘要
白细胞(WBC)是免疫系统的重要组成部分,其数量和分类计数对诊断血液相关疾病至关重要。虽然现有的研究主要集中在分类容易区分的主要WBC类型,但我们的研究深入研究了一个包含多达19个WBC类别的模型,其中一些显示出不规则的形状,手动区分具有挑战性。卷积神经网络(CNN)在准确分类这些复杂的白细胞类别方面取得了显著的进展。然而,这些模型的准确性主要取决于是否有足够合适的数据集,对于稀有的WBC类来说,获得这些数据集可能是具有挑战性的。为了解决这个问题,我们引入了一个产生式模型–基于扩散的带梯度惩罚的Wasserstein产生式对手网络(WGAN-GP)。该模型创新性地将去噪扩散概率模型(DDPM)正向扩散过程与WGAN-GP相结合,利用DDPM的噪声向量作为WGAN-GP生成器的输入。这种融合加速了生成过程,并显著提高了输出的保真度,特别是对于复杂的WBC图像。我们的模型在韩国顺春乡大学富川医院的一个包含19个白细胞类别的4,503张图像的数据集上展示了它的有效性,显示出在为罕见的白细胞类别生成高质量图像和解决数据失衡方面的显著改进。我们进一步将预先训练的CNN与支持向量机(SVM)相结合进行分类,其中我们的增强策略使ResNet50支持向量机模型在19个WBC类别的分类中获得了95%的平均准确率。这项研究不仅解决了数据不平衡的问题,还建立了WBC图像分析的新基准,展示了我们的模型在为稀有类生成高质量数据方面的有效性。
1.介绍
白细胞对人体的免疫系统至关重要,并保护我们的身体免受病原体的侵袭(Tigner等人,2020)。所有的WBC都不同于骨髓的多能干细胞,后者随后被释放到循环系统。WBC是一组异质性的有核细胞,外周血中的五种主要类型是中性粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞和嗜碱性粒细胞(Tigner等人,2020)。检测白细胞的数量和分类计数对于诊断各种疾病,特别是血液疾病是至关重要的。在实践中,由于几个因素,包括每种白细胞类型的成熟程度,循环中肿瘤细胞的存在,以及其他混杂细胞成分的识别,如有核红细胞(NRBC)和巨大血小板,很难获得准确的WBC分类计数。在临床实验室中,有两种方法被广泛用于鉴定外周血中的血细胞数量和分类计数。一种方法是用流式细胞仪进行自动血液分析,另一种是由专家在显微镜下对血涂片样本进行目视检查。尽管涉及自动血液分析仪的过程可以提供准确的血细胞计数结果,但无法准确识别各种类型的典型白细胞和其他混杂的伪影(Gulati等人,2022)。训练有素的专家需要人力,与自动细胞分析仪相比,这一点很难获得,也很耗时(Mohammed等人,2014年)。
本研究建议在WGAN-GP模型中加入DDPM的扩散过程,以解决GaN中收敛速度慢和扩散模型中采样速度慢的问题。DDPM的扩散过程会从WBC图像中产生纯噪声。它随后被用作WGAN-GP生成器的输入,以生成照片级真实感图像,取代了传统的随机噪声向量方法。
通过这种方法生成的扩展数据集提高了19个WBC类的深度学习模型的分类精度。我们对这项研究的主要贡献可以概括如下:
1.提出了一种新的生成模型–基于扩散的WGAN-GP,将DDPM的扩散过程与WGANGP相结合,以实现更快、更可控的图像生成,解决了WBC数据中的类不平衡问题,显著提高了分类性能。
2.我们将WBC分类扩展到包括19个不同的类别,包括稀有和未成熟细胞(与癌症相关),这与以前的研究相比是一个重大进步,以前的研究主要集中在人眼容易区分的主要类别。从模型生成的数据集现在可以在GitHub上公开使用。可以在确认部分找到到存储库的链接。
本白皮书的其余部分的结构如下。在第二节中,我们讨论了相关的工作。第三节介绍了我们提出的对WBC进行扩充和分类的模型。我们使用不同的模型体系结构和训练设置进行了广泛的实验,并在第四节详细讨论了我们的结果。最后,第五节总结了本文提出的方法和发现。
2.相关工作
2.1白细胞分类
针对白细胞分类问题的不同CNN架构的研究。不同模型如LeNet-5、ResNet50、VGG19、Xception等被应用于开发白细胞分类模型,并取得了巨大成功。近期的发展包括引入CNN-RNN模型和SDCT-AuxNet𝜃体系结构,以提高分类准确率。此外,还介绍了区域CNN(R-CNN)技术的应用,并探讨了数据预处理和增强对分类精度的影响。这段话总结了针对白细胞分类问题的不同CNN架构的研究。不同模型如LeNet-5、ResNet50、VGG19、Xception等被应用于开发白细胞分类模型,并取得了巨大成功。近期的发展包括引入CNN-RNN模型和SDCT-AuxNet𝜃体系结构,以提高分类准确率。此外,还介绍了区域CNN(R-CNN)技术的应用,并探讨了数据预处理和增强对分类精度的影响。
2.2训练数据增强技术
用于WBC分类的训练深度CNN可能面临过度拟合挑战,特别是在转移的目标领域进行测试时。增强- ING训练数据集是克服过度拟合的最新方法, 研究人员将数据转换和生成模型结合在一起。通过各种技术进行数据增强也成为解决数据集不平衡或不足挑战的一种解决方案。吉达尔等人的研究。(2022),Jung et al.(2022),以及Bairaboina和Battula(2023)证明了Gans,特别是深度卷积Gans(DCGAN)通过解决数据不平衡问题来加强分类模型训练的有效性。
虽然数据增强是一个强大的工具,但它也伴随着挑战。最近的研究,如王等人。(2022b),肖等人。(2021)和Preechakul等人。(2022),重点是快速和高质量的生成模型,如扩散模型和GANS,以克服数据集过度拟合和不足的挑战。然而,正如郑等人所强调的那样,这些方法在训练和采样过程中存在计算成本高的问题。(2022年)。表1总结了白细胞扩增和分类方面的相关工作。
链接: link
文献综述发现,对于WBCS分类任务,可以使用完全学习或预先训练的CNN模型的迁移学习技术来构建CNN。此外,使用CNN模型作为特征提取和机器学习模型作为分类器的混合是一种很好的方法。数据变换被广泛应用于WBC分类,但生成性模型很少被应用。最显著的研究差距是,以前的研究涉及的类别比现有类型的白细胞更少。从算法的角度来看,基于扩散的生成性模型和GaN模型已被用于图像数据的生成,但存在学习速度慢和学习困难的问题。扩散和GaN的结合是Wang等人提出的。(2022年)工作。然而,这项工作为扩散过程的所有步骤训练GaN,并导致高计算成本。
3.提出的增强技术和分类模型
3.1数据增强模型
图像增强涉及更改现有数据以创建更多 用于模型训练的数据。最近,GANsS和扩散模型已经 已被认为是在各种应用中生成逼真图像的有效方法。在这些模型中,DDPM(Ho等人,2020a)、Wasserstein Gan(WGAN)(Arjovsky等人,2017)和WGANGP(Gulrajani等人,2017)在生成照片级逼真样本方面表现出非凡的性能。我们在19类WBC图像中评价了它们在解决失衡问题方面的表现:条状中性粒细胞、节段性中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞、单核细胞、早幼粒细胞、粒细胞、异系粒细胞、前淋巴细胞、未成熟细胞、淋巴细胞变异体、浆细胞、大颗粒淋巴细胞、异常细胞、污点细胞、伪影、NRBC和巨大血小板。我们提出了利用WGAN-GP中