A large-scale dataset for mitotic fgure assessment on whole slide images of canine cutaneous.. 笔记

A large-scale dataset for mitotic figure assessment on whole slide images of canine(犬科的) cutaneous(皮肤的) mast cell(肥大细胞) tumor

从犬皮肤肥大细胞肿瘤获取的全视野数字图像切片用于有丝分裂图像评估的大规模数据集
2019年文章,SCI分区 :8.501 2区
该数据集CCMCT包括32张犬肥大细胞肿瘤的完整幻灯片图片和3个伴随的SQLite数据库,描述了各种细胞类的注释。
github代码:https://github.com/maubreville/MITOS_WSI_CCMCT/
数据集通过代码下载

摘要

该文章给出了一个大规模的显微镜细胞注释数据集。数据集包括32张犬皮肤肥大细胞肿瘤的全切片(WSI)图像,包含不同级别的病例。切片注释包括:有丝分裂、瘤肥大细胞、炎性粒细胞和类似有丝分裂图。以及一个算法辅助的数据集,包含可能缺失的核分裂图。总共有262,481条注释,其中44,880条代表有丝分裂图。

文章已经在RetinaNet上实现,细胞分类网络方面人工标记和算法辅助数据集的F1-Scores分别为0.786和0.820。

文章指出该数据集首次为有丝分裂图提供了完整的WSIs注释,从而能够对完整WSIs上的有丝分裂检测算法以及感兴趣区域检测算法进行评估。

背景与总结

It is commonly accepted that the quantity of mitotic figures is one of the most powerful prognosticators of biological behavior for many tumor types, both in humans and animals.
有丝分裂的数量是公认的许多类型肿瘤生物学行为的最强大的预测因子之一,这包括所有人类和动物

相关有丝分裂的比赛:TUPAC16ICPR MITOS-2012ICPR MITOS-ATYPIA-2014MIDOG2021/2022

Mitotic figures are defined histologically by the lack of a nuclear membrane and the presence of hairy projections of the chromosomes (nuclear material).
有丝分裂现象被定义为组织学上由缺乏核膜和染色体的毛状突起(核物质)。

有丝分裂计数(MC)需要在一个标准大小的区域内计算有丝分裂数。该方法在标准的H&E染色切片上很容易得到,而且不需要额外的成本,因此被广泛应用。

Regardless, reproducibility is currently hampered by high inter- and intra-rater variability due to the difficulty of identifying mitotic figures and the variable distribution of mitotic figures throughout the tumor section.
无论如何,由于在肿瘤切片鉴别有丝分裂像及其分布很困难,它们的评分高度不同,有丝分裂计数可复现性受到阻碍。

由于有丝分裂像的形态取决于细胞分裂阶段和组织特性以及不规则的形态,病理学家对单个有丝分裂图形的识别只有中等的一致性。同时在犬肥大细胞肿瘤(CCMCT)和人类乳腺癌中,区分不同细胞结构的有丝分裂像的评分差异为17.0-34.0%。CCMCT中大多数的数据都是良性,被认为是潜在的恶性肿瘤。

方法

扫描仪:ScanScope CS2 默认:400X(图像分辨率:0.25μm/ pixel)

MEL:Manually expert labelled dataset(手工专家标记数据集)

手工专家标记(MEL)数据集主要注释由两名在兽医病理学领域专家完成。数据集分类细胞类别如Fig1所示:

  1. 有丝分裂像。
  2. 非有丝分裂的肿瘤肥大细胞。
  3. 非有丝分裂,模棱两可的细胞。
  4. 嗜酸性粒细胞。
    在这里插入图片描述
    先由软件识别组织的标注(Annotatons),让第一位专家检测并打标签(labels),然后第二位专家在去掉所有标签情况下在标注上打标签,最后检查相同则过,不同再重新评估。
    在这里插入图片描述

HEAEL:hard-example augmented expert labelled dataset variant(硬实例增强专家标记数据集变体)

It has been shown that determination of hard examples is helpful for faster convergence(收敛) of the classification approaches.
结果表明,确定硬样例有助于加快分类的收敛速度方法

辅助划分算法使用ResNet-18将模糊的非有丝分裂细胞再进行分类筛选出可能是有丝分裂像的细胞,然后交由专家再次审查。
在这里插入图片描述

ODAEL:Object-detection augmented expert labelled dataset variant (目标检测增强专家标记数据集变体).

In order to counteract(抵消) bias encountered(遇到) due to one or both experts missing candidates of the (relatively rare) mitotic figures, we shifted towards an augmented dataset generation technique.
为了抵消由于一个或两个专家遗漏了(相对罕见的)有丝分裂图的候选结果而导致的偏差,我们转向了增强数据集生成技术。

在这种方法中,深度网络将提出其他潜在的有丝分裂像候选,然后专家进行评级和分配。使用这种机制,除了缺失的有丝分裂像外,这里生成了一个硬阴性样本列表,即模型甚至人类专家可能误判真正的有丝分裂像的例子。硬阴性有丝分裂像:外观相似的细胞是模型归类为有丝分裂像的细胞,但人类专家的共识忽略了这是正确的标签
在这里插入图片描述
初始目标检测/细胞定位阶段之后引入了第二阶段细胞分类器该网络为上文使用的辅助划分算法中训练的网络。

数据集描述

注释有3个的SQLite格式的数据库,描述了各种细胞类的注释。注释内容包括:

  1. 每个切片都进行了细胞注释。
  2. 细胞的坐标(x, y)。
  3. 细胞同意的分类(由所有专家决定)。
  4. 两个或多个单独的类标签。对于每个标签表述了谁分配了标签,是专家1,专家2,专家共识投票,或者增强数据集的对象检测算法。每个标签的唯一数字标识符还表示标签给注释的顺序。

There was a large spread in the total count, reflecting also differences in tumor proliferation.
有丝分裂总计数分布跨度较大,也反映了肿瘤增殖的差异

因为object-detection-augmented dataset中使用双阶段分类器将有丝分裂概率大于0.5的所有非有丝分裂细胞都被加入到mitotic figure look-alikes 这类中,使得hard-example-augmented dataset 到object-detection-augmented dataset中的mitotic figure look-alikes类数量显著增加。

表1中数据集的信息:其中使用“/”划分了三种数据集的统计,ODAEL/ODAEL/MEL。
在这里插入图片描述
在这里插入图片描述

代码描述

Setup.ipynb:可以从figshare下载所有CCMCT数据集。
RetinaNet-CCMCT-(MEL/HEAEL/ODAEL).ipynb 训练代码
Inference-Retinanet.py 测试代码

在子文件夹2nd_stage中是训练和评估第二阶段ResNet-18分类器:
首先需要提取patch (exportDataset_MEL/HEAEL/ODAEL.py),然后训练分类器(CellClassification-MEL/HEAEL/ODAEL)ipynb)。通过Inference-CellClassifer.py进行推理,如Table2所示。
在这里插入图片描述

代码实施验证

我们对数据集的技术验证是双重的:首先,我们通过对有丝分裂图与其他细胞进行分类实验来评估所分配标签的质量。其次,我们对测试集的完整WSIs进行检测任务。这两种方法都有助于解决一些独特的问题:第一种方法可以获得分类分离程度的信息,从而间接评估标签分类的质量,而后者也可以评估有丝分裂图在WSI上的覆盖率。

1. 分类预选细胞。

从数据集的ODAEL变体中提取了 128 × 128 128 \times128 128×128px的补丁,除了在各自的中心有模糊的细胞(有丝分裂图、类似有丝分裂图、肿瘤肥大细胞和粒细胞)外,还包含所有类别的单细胞。基于ResNet-18在ImageNet24上预训练。使用最大学习率为 1 0 − 2 10^{-2} 102的和Adam优化器对网络进行1周期10个epoch的训练。在测试集中的准确率为91.390%。如表3所示,主要的混淆是在有丝分裂像和类似有丝分裂像之间,而所有其他细胞类型都被分类器很好地分离。这一结果也与人类专家在这项任务中评分的高方差相一致
在这里插入图片描述

2. WSI上有丝分裂像的检测

RetinaNet作为最先进的目标检测方法,参考了DeepMitosis框架。RetinaNet引入了焦点损失,在有丝分裂图检测上,网络可以对难以做出的决策赋予更大的权重,也可以用于类别不平衡。

模型输入 256 × 256 256 \times 256 256×256像素的图像块,模型建立在ImageNet24上预训练的ResNet-18主干上,具有网络的空间金字塔特征,以及两个专用检测头,一个用于边界框检测,一个用于有丝分裂图像/背景分类。头部以最高( 16 × 16 16 \times 16 16×16)空间分辨率的最低特征金字塔层为基础。

我们采用了专用的抽样方案,以确保和加快模型的收敛速度。对于每个训练批次,50%的图像将包含至少一个有丝分裂图形,40%将包含一个有丝分裂图形看起来相似(硬例子)和10%的图像完全随机从幻灯片中挑选。在MEL数据集变体中由于没有硬实例,我们在方案中使用了模糊单元。对于训练,我们只使用了每个WSI的上半部分,为了验证,我们使用了下半部分。在训练和算法优化过程中从未使用测试集。

由于需要从WSI中提取大量的潜在图像,我们认为深度学习中关于epoch的经典定义(即在反向传播中至少一次看到整个训练集)不再有意义。因此,我们考虑5000张(每次随机选择)图像的pseudo-epochs来进行训练。

在对单个pseudo-epochs进行初始训练后,网络头部使用Smith和Topin的快速收敛方案进行训练,Adam作为优化器,对10个pseudo-epochs的3个周期进行训练,最大学习率为 1 0 − 4 10^{-4} 104。在此收敛之后,对整个网络进行 2 × 30 2 \times 30 2×30个pseudo-epochs的微调,并早停来获取具有最好性能的模型。从验证损失来看,模型没有过拟合,这并不奇怪,因为数据集中有大量的图像信息。我们使用的抽样方案导致该模型高估了有丝分裂象的可能性。因此,我们在训练模型后,通过处理训练集和验证集的完整WSIs来优化目标检测的阈值。我们再次使用上一步训练的patch分类器作为第二阶段进行有丝分裂像检测。不出意料,我们发现了数据集变体对Fl分数的影响(见表4)。由于ODAEL变体在识别所有现有的有丝分裂数字方面被认为是彻底的,所以与ODAEL变体在所有模型中存档的Fl分数最高的预期是一致的。总体而言,数据集变量对F1得分的影响在3个百分点以上,凸显了所采用方法的灵敏度。
在这里插入图片描述

3. 消融实验

对于这种规模的数据集,最有趣的问题之一是,与以前的方法相比,它从增加的规模中获得的好处有多大。当前数据集的主要方法是注释10个相邻高功率场(HPF)大小的子集。我们遵循Meuten将单个HPF的面积定义为0.237 m m 2 mm^2 mm2的定义。为了研究大小的限制是如何影响检测结果的,因此,我们从性能最好的ODAEL数据集变体中提取了面积为5、10和50HPF的小子集。我们请了一位高级病理学专家来确定肿瘤中有丝分裂最活跃的部分,就像他对有丝分裂计数所做的那样。这个过程与Veta等人描述的TUPAC16数据一致。
在这里插入图片描述
为了与现有的数据集进行比较,下面我们将重点放在(图像大小)减少到10 HPF区域的数据集上(其他情况见表5)。使用4:3的长宽比,得到的图像宽度为7017像素,高度为5263像素。得到的数据集(10 HPF缩小后)包含7,617个细胞注释,包括1041个有丝分裂图。尽管病例数略高,它有丝分裂数相似于AMIDA13数据集,如表6所示。我们在完整的数据集上训练一样的pipeline,然而对于方差较小的数据集为避免过拟合,使用小数量的迭代训练:RetinaNet目标检测器使用( super-convergence)超收敛训练一个周期10个pseudo-epochs,并且在另一个60个迭代中使用基于Adam优化器的normal自适应学习速率。在最后一个阶段,我们使用了早期停止,并选择了验证性能最高的模型。如图5所示,模型的性能随着标注面积的增加和可用WSI数量的增加而显著提高。然而,数据显示,随着WSI的数量增加达到了一个平稳期,将训练WSI的数量从12增加到全部(21)仅略微提高了性能
在这里插入图片描述
在这里插入图片描述

使用注意

注释是在SlideRunner数据库格式中提供的,它也可以用于查看带有所有注释的WSIs,但也可以使用流行的MS COCO格式。请注意,后者不提供使用多个专家标签对对象进行注释的可能性,因此数据格式减少了信息内容。我们鼓励基于SlideRunner数据库格式查看和处理数据。

词汇记录

throughout 到处,自始至终
vast advances 巨大的进步
Eosinophilic granulocytes 嗜酸性粒细胞
morphological 形态学的
atypical morphologies 非典型形态(不规则形态)
fatal metastatic diseases 致命的转移性疾病
== super-convergence== 超收敛

参考资料

[1] A large-scale dataset for mitotic figure assessment on whole slide images of canine cutaneous mast cell tumor

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值