NuCLS: A scalable crowdsourcing approach and dataset for nucleus classification and segmentation..笔记

NuCLS: A scalable crowdsourcing approach and dataset for nucleus classification and segmentation in breast cancer


NuCLS:一种用于乳腺癌的细胞核分类和分割的可扩展的众包方法和数据集
论文地址:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9112766/
数据集地址:https://sites.google.com/view/nucls/multi-rater
github地址:https://github.com/PathologyDataScience/NuCLS

摘要

细胞和组织结构的高分辨率映射为开发计算病理学的可解释机器学习模型提供了基础。深度学习算法可以为训练和验证提供大量标记实例的精确映射。由于病理学家需要花费大量的时间和精力,生成足够数量的高质量标签已经成为计算病理学的一个关键障碍。在这篇论文中,我们描述了一种吸引医科学生和病理学家的方法,用于生成一个包含超过220,000个乳腺癌细胞核注释的数据集。我们展示了由弱算法生成的建议注释如何提高非专家生成的注释的准确性,并可以为训练分割算法产生有用的数据,而无需费力的手工跟踪。我们系统地检查了评分者之间的协议,并描述了对MaskRCNN模型的修改,以改善细胞映射。我们还描述了一种称为学习嵌入决策树近似(DTALE)的技术,该技术利用核分割和形态学特征来提高核分类模型的透明度。本研究中产生的注释数据可免费用于算法开发和基准测试:https://sites.google.com/view/nucls。

引言

动机

卷积神经网络(CNN)和其他深度学习方法一直是最近医学进展的核心(术语见表S1)。计算病理学的一个关键挑战是缺乏用于模型训练和验证的大规模标记数据集。具体来说,在组织病理学中,缺乏描述组织区域和细胞结构的注释数据。这些信息对于训练可解释的深度学习模型至关重要,因为它们允许检测映射到已知诊断标准的概念。此外,组织和区域注释的可用性使肿瘤微环境的高分辨率空间映射成为可能,为计算驱动的组织病理学生物标志物和生物学关联的发现铺平了道路。这种短缺通常归因于生成注释标签所需的领域专业知识;病理学家花数年时间接受住院医师培训和专科训练。

This is exacerbated by the time constraints of clinical practice, and the repetitive nature of annotation work.
由于临床实践的时间限制和注释工作的重复性,使得这种情况更加严重(生成高质量大规模的标签注释)。

手工跟踪对象边界是一项要求特别高的任务,迫切需要使用便利的或辅助的注释策略来获取这些数据。相比之下,传统的注释问题,如在自然图像中检测人,几乎不需要训练,通常需要公众参与。此外,独特的问题通常需要新的注释数据,这强调了对可伸缩和可重复的注释工作流的需求。

我们使用一种辅助注释方法来解决这些问题,该方法利用了非病理学家(NPs)的参与,包括医科学生和研究生。医科学生通常有强烈的动机参与注释研究,在住院医师选择中越来越依赖研究参与。我们描述了适应数据收集和计算建模方面,以提高可伸缩性和减少工作量。这项工作的重点是乳腺癌苏木精和伊红染色(H&E)切片全切片扫描的细胞核分类、定位和分割(简称NuCLS),来自癌症基因组图谱(TCGA)的18个机构。我们的注释管道可以轻松地收集细胞核分割和分类数据,为系统发现疾病进展的组织病理学-基因组关联和形态学生物标记铺平道路。

以前工作

通过扩展数据生成或减少对标记数据的依赖,人们对解决组织病理学中的数据稀缺问题越来越感兴趣。这项工作旨在适应生物医学成像领域可扩展数据生成的广泛背景,在这些领域,专家注释是昂贵的和/或困难的。众包,即让一群人来注释数据的过程,是解决这个问题的关键。在医学图像分析的众包中存在大量相关工作之前,我们发表了一项研究和数据集,使用NPs众包来注释乳腺癌中的低功率区域。我们的方法是结构化的,因为我们根据专业水平分配不同的任务,并利用协作注释来获得规模大但质量高的数据。在这里,我们通过关注核分类、定位和分割等具有挑战性的问题,显著地扩展了这一想法。这个计算机视觉问题是计算病理学中一个很有意义的课题。

虽然公开发布数据只是我们研究的一个方面,但需要注意的是,有相关的公开数据集可以与我们的结合使用。然而,没有人系统地探索数据生成的过程。基质肿瘤浸润淋巴细胞(sTILs)的注释是美国食品和药物管理局正在进行的一项研究的主题。更一般地说,大多数公共计算病理学数据集要么规模有限,要么是通过实践病理学家详尽的注释工作生成的,要么不披露或讨论数据生成。此外,据我们所知,大多数其他工作不探索评分者之间的协议(特别是专家vs非专家),或者不提供调整对象检测框架的解决方案,以用于核检测。

与本文特别相关的两个工作:Irshad等人的一项研究表明,通过Figure Eight平台招募的非专家可以在肾透明细胞癌中产生精确的核检测和分割,但仅限于10张全幻灯片图像。Hou等人最近的工作探索了使用合成数据来产生核分割。他们的工作虽然是一项重要的贡献,但并没有解决分类问题,而是依赖于对结果的定性幻灯片级评估,也没有探索算法偏差是如何影响的数据质量。

贡献

在这项工作中,我们描述了一种可拓展的众包方法,以系统的方式让NPs参与进来,并为本地化、分割和分类生成注释乳腺癌中的细胞核。我们总共获得了222,396个注释。其中包括超过125,000个单一评分核注释和超过97,000个多评分核注释。该工作流只需要病理学家最少的努力,并使用算法建议来扩展注释过程,并获得包含大量分割边界的混合注释数据集,而无需费力的手动跟踪。我们证明了算法建议可以提高NP注释的准确性,并且NPs是常见单元格类型的可靠注释器。我们讨论了一种新的约束聚类方法,它用于多评级数据集的可靠truth推断。我们还展示了如何使用多评分者数据来确保NP注释的质量,或在某些情况下取代专家监督。

此外,我们还展示了最先进的对象检测模型MaskRCNN可以从根本上修改为特定的核检测任务,并从混合注释数据集学习。我们还描述了一种称为学习嵌入决策树近似(DTALE)的技术,它提高了模型的可解释性,解决了临床采用深度学习方法的障碍。最后,我们生成的注释数据集保存在https://sites.google.com/view/nucls上,可以用于模型开发和基准测试。

结果与讨论

结构化众包支持可伸缩的数据收集

病理学家的时间有限且昂贵,仅依靠病理学家生成注释会阻碍基于CNN的最先进模型的开发。在这项研究中,我们表明NPs可以执行大部分耗时的注释任务,而病理学家的参与可以局限于低工作量的任务,包括:

  1. 训练NPs并回答他们的问题(图1)。
  2. NP注释的定性评分(图S1)。
  3. 组织学区域的低倍率标注(图S2)

我们使用了一个基于web的注释平台,叫做histicsui,用于注释、反馈和质量评审35。histicsul提供了一个带有注释工具的用户界面和一个API,用于对集中注释数据库进行编程查询和操作。我们获得了来自美国、埃及、叙利亚、澳大利亚和马尔代夫的32名NPs和7名病理学家的注释。我们从3944个视野(FOV)和125名三阴性乳腺癌患者中获得了128000个核注释。这些注释包括边界框的位置、分类,以及相当一部分核的分割边界。根据执业病理学家的反馈,其中一半的注释进行了质量控制校正。

此外,我们获得了三个多评分者数据集,包含97,300个注释,其中相同的FOV由多个参与者注释(图1b,图2)。多评分者数据的收集可以定量评估NP可靠性、评分者之间的可变性以及算法建议对NP准确性的影响。病理学家未对多评分注释进行校正,并可对NP性能进行无偏性评估。还收集了一组有限的多评级fov的病理学家注释,以评估NP准确性。

词汇记录

fellowship training 专科训练

参考文献

[1] NuCLS: A scalable crowdsourcing approach and dataset for nucleus classification and segmentation in breast cancer

  • 22
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值