Computer-assisted mitotic count using a deep learning–based algorithm improves interobserver repro

Computer-assisted mitotic count using a deep learning–based algorithm improves interobserver reproducibility and accuracy
使用深度学习算法的计算机辅助有丝分裂计数提高了观察者之间的重复性和准确性

摘要

作者指出需要人工智能辅助病理学家进行分类,来确保可靠性

有丝分裂计数(MC)是预测恶性肿瘤的重要组织学参数。然而,由于在选择感兴趣区域(MC-ROI)和识别或分类有丝分裂图(MF)方面存在困难,它在观察者之间和观察者之间存在差异。人工智能领域的最新进展使得高性能算法的发展成为可能,从而提高MC的标准化。由于算法预测并非完美无缺,病理学家的计算机辅助审查可能确保可靠性。在本研究中,我们将部分(MC-ROI预选)和完全(MF候选的额外可视化和算法置信值的显示)计算机辅助MC分析与23位病理学家对50例犬皮肤肥大细胞肿瘤(ccMCT)的全切片图像进行的常规(无辅助)MC分析进行了比较。算法预测旨在帮助病理学家检测有丝分裂热点位置,减少被忽略的MF,并改进容易混淆的细胞的分类。与无辅助方法(ICC=0.70)相比,在计算机辅助下,MC的观察者间一致性显著增加(观察者间相关系数,ICC=0.92)。在计算机辅助下,对预后分层的分类具有较高的准确性算法预选的热点MC ROI的MC始终高于手动选择的MC ROI。与真实标签(用免疫组化方法检测磷酸组蛋白H3)相比,当使用计算机辅助时,病理学家在检测单个MF方面的表现得到增强(F1得分0.68增加到0.79),假阴性率降低了38%。这项研究的结果表明,计算机辅助可能会使ccMCT中的MCs更具再现性和准确性。

引言

肿瘤细胞的增殖参数与许多肿瘤类型的患者预后相关,包括犬皮肤肥大细胞肿瘤(ccMCT),并且是治疗建议的相关标准,这些建议带来了可观的经济和生活质量影响。6,9,24,37,42有丝分裂计数(MC)是唯一可以在苏木精和伊红(HE)染色的标准组织切片中快速有效地测定的增殖标记物,因此在每种潜在的侵袭性肿瘤类型中都进行常规评估。28,37对于ccMCT,MC被用作单独的参数9,35,41或作为肿瘤分级系统的一部分。27如果用作单独的预后参数,在不同对于ccMCT相关死亡的研究中,MC从0至5以及 M C ≥ 5 MC\geq 5 MC5的两级系统的评估结果为,敏感性分别为32%、39%、50%和55%(假阴性率高),特异性分别为91%、96%、98%和99%(假阳性率低)。为了提高灵敏度,其他研究小组建议使用MC的截止值≥ 2(敏感性:76%和84%;特异性:56%和80%,ccMCT相关死亡)24,41或将MC分层为3组(分别为0、1–7、≥ 7和0–1、2–7、≥ 7;敏感性和特异性不可用)。19.41这些数据证明MC与ccMCT的预测相关;然而,它也揭示了衍生结果中的一些变异性,这给常规的有丝分裂密度评估及其预后价值的解释带来了不确定性。问题在于,是否可以通过不同研究之间MC方法的标准化来减少这种变异性,从而最终允许更合适的治疗建议

MC通常被定义为具有最高有丝分裂密度的“10个高倍视野(HPF)”内的有丝分裂图(MF,或在显微镜下可见的经历有丝分裂的细胞18)的数量,即热点肿瘤位置。18,31,32从这个定义来看,进行MC的3个潜在变异源变得明显:(1)评估肿瘤区域的可变大小(“10HPF”),以及(3)在高倍率下对单个MF的识别和对容易混淆的细胞的分类不一致

一些研究证明,使用数字显微镜和全玻片图像(WSI)进行MC是可行的。1,7,13,38,46与光学显微镜不同,列举10个HPF(使用放大400倍的显微镜进行圆形视野)的概念是无关的,因为该区域可以在WSI中精确测量和标记(具有直角视野)。在光学显微镜中,放大400倍的单个视场的大小可能会根据显微镜的视场数而显著变化,并且兽医病理学的标准尺寸为2.37 mm2(基于22的视场)。31,32在本研究中,我们使用术语“有丝分裂计数感兴趣区域”(MC-ROI),而不是使用术语“10 HPF”(使用WSI)对于肿瘤部位面积为2.37mm2的单一矩形区域,假定有丝分裂密度最高

关于MC-ROI的选择,通常的做法是试图找到具有最高有丝分裂活性的单个肿瘤区域,即“热点”。8,27,31,32,35通常被认为(但很少被证明,例如在人类乳腺癌25中)最有丝分裂活动的肿瘤区域与肿瘤的生物学行为相关。值得注意的是,已有研究表明,有丝分裂密度在CCMCT和犬乳腺癌组织学切片中的不同肿瘤部位之间存在显著差异,病理学家在寻找热点方面存在一些困难。

病理学家识别和分类MF的能力最近得到了评估。16,44,45,47这些研究比较了同一MC-ROI中不同病理学家的数字MCs,发现注释的MF数量的总体差异为1.5倍至3.3倍。45,47这可归因于与MF候选识别失败相关的错误MF检测,以及对类似物(如凋亡小体、深染或变形的细胞核和炎性细胞)的MF分类不准确或不一致。Tabata等人38已经表明,与传统的光显微复制(80%)相比,病理学家在使用WSI时MF检测的准确度较低(69%至74%)。

尽管数字显微镜在检测MF方面存在潜在的局限性,但WSI支持创新的计算机化图像分析方法,有可能提高MC的再现性和准确性,从而提高MC方法的标准化。10,14由于具有开创性的机器学习解决方案(尤其是使用卷积神经网络的深度学习)和大规模数据集的可用性,仅在过去十年中才有可能开发用于MF的高性能图像分析算法。3,12,43,45不管这些进步如何,对深度学习的主要批评之一是它的“黑箱”特性(即决策标准的不可用性),这可能导致无法识别算法失败。10,30为了确保高可靠性,建议采用一些方法,允许训练有素的病理学家(计算机辅助诊断/预后)通过将算法结果可视化为WSI上的覆盖物来审查算法预测。10第一个计算机辅助MC软件解决方案最近已为人类病理学家验证。7,33然而,迄今为止,还没有发表过验证计算机辅助在执行MC(见上文)的每个关键步骤和兽医肿瘤组织病理学中的效用的研究

本研究的目的是将部分(MC-ROI预选)和完全(附加MF候选方案)计算机辅助MC分析与ccMCT WSI中常规(独立)MC分析进行比较。我们评估了计算机辅助的辅助价值和局限性23位病理学家进行整体MC、确定低于或高于预后临界值的计数、选择热点MC-ROI以及识别和分类单个MF的能力。最终目标是确定一种可能有助于MC标准化的计算机辅助方法。

材料和方法

研究课程

在这里插入图片描述
在本研究中,解剖病理学家(研究参与者)使用不同程度的计算机辅助(无、部分和完全;图1),在3个阶段对50个ccMCT的WSI中形成MCs。在第1阶段,没有计算机辅助,参与者的任务是手动筛选WSI中的MC ROI(有丝分裂热点),并使用“常规”方法注释该区域内的所有MF(包括非典型MF)对于第2阶段(部分计算机辅助)和第3阶段(强计算机辅助),使用基于深度学习的算法分析WSI,该算法检测整个组织切片中的MF。基于算法MF检测,计算每个可能的肿瘤位置的MC,从而导致MC分布。具有最高MC的ROI被自动预选并呈现给第2阶段的参与者对于第3阶段(全计算机辅助),除了与第2阶段相同的算法MC-ROI预选之外,单个MF和MF相似检测的可视化(以帮助MF识别)被提供为WSI上的覆盖物,以及它们对应的算法置信值(以协助MF分类)。这些算法检测仅用于帮助识别和分类潜在的有丝分裂图,参与者必须注释他们想要计算为有丝分裂的每个结构

参与者被要求严格遵循3个阶段的过程,并至少等待3天直到下一阶段(通常,两个阶段之间有多周)。在执行MCs时,参与者使用专用注释软件在数字图像的准确位置标记列举的MF(包括非典型MF)。与黄金标准衍生(pHH3 IHC辅助)地面实况数据集相比,该方法可确定参与者的能力和基于深度学习的模型识别单个MF(在对象级别)的能力。研究结束后,参与者被要求填写一份意见调查

研究例子

从柏林弗里大学兽医病理学研究所的档案中随机挑选出低、高组织学分级分布相同的ccMCT病例27(基于原始病理报告)。从每一个肿瘤面积最大的病例中选择一个组织块。从每个块产生组织切片,并在不同批次和时间点使用相同的组织染色器(ST5010 Autostainer XL;Leica)用HE染色。使用默认设置,使用线性扫描仪(ScanScope CS2;Leica)对载玻片进行数字化。具有一个焦点扫描平面的WSI以400倍的放大率产生(图像分辨率:0.25µm/像素)。排除了整体组织保存非常差的标本(即大部分肿瘤切片中的核细节明显丢失)和肿瘤切片小于12 mm2(通过多边形注释测量)的病例。这一过程一直持续到选择了35例低级别病例和35例高级别病例(基于原始病理报告)。本研究未考虑临床随访(患者结果),因为主要目标是验证不同的MC方法,而不是确定预后。地方当局(柏林州卫生和社会事务办公室)批准使用样本(批准号:StN 011/20)进行研究。

70例患者采用基于深度学习的MF算法进行分析(见下文)。其中7例(均为低级别,符合原始报告)在肿瘤区域外进行了计算机化MC-ROI预选(由于MF预测主要发生在表皮、毛囊、皮脂腺储备细胞或挤压伪影区域),并被排除在研究之外。其余63例患者在肿瘤区域内包含算法MC-ROI预选,未进一步评估排除目的。我们随机排除了3例额外的低级别和10例高级别病例(根据原始报告),以便将研究集减少到25例低级别和25例高级别CCMCT。研究组病例随机分配1至50例。此外,还提供了一张测试幻灯片(高等级ccMCT),让研究参与者熟悉注释软件、研究任务和数字图像的属性。

参与者研究说明

来自13个不同实验室的26名病理学家参加了这项研究。研究材料(WSI注释软件,算法预测文件),解释研究的目标和过程,并向每个参与者演示注释软件(使用测试幻灯片)。对于阶段1,参与者被指示寻找有丝分裂热点MC ROI。然而,对于如何找到“正确”的MC-ROI,没有给出具体建议。在所有3个阶段,参与者都被指示使用其“常规”决策标准,高度谨慎地注释MC ROI中的所有MF。没有提供“正确”鉴别和分类MF(包括非典型MF)的具体诊断标准,以验证现实的诊断设置。

注释软件和数据库创建

图像分析算法

基于深度学习算法的预测用于第2和第3阶段。计算机化图像分析包括2项分析任务,如Aubreville等人所述:(1)检测MF的深度学习模型,以及(2)由计算机化MC密度计算(热图)和热点MC-ROI预选组成的后处理步骤

简言之,MF的检测基于2个卷积神经网络(RetinaNet和ResNet18架构)的级联。5使用第一卷积神经网络(对象检测器)以高灵敏度和高处理速度筛选整个WSI中的潜在MF候选。第二个卷积神经网络(斑块分类器)被开发用于将检测到的罐头的小图像斑块(通过第一个神经网络)分类为MF(分类阈值≥0.5)和MF相似物(分类阈值<0.5),具有较高的特异性。模型分类得分(“置信值”)从贴片分类器中提取(以便与算法预测一起显示),范围在0.01(很可能是MF)和1.0(很可能)之间可能是MF)。使用开放存取数据集对模型进行训练和技术评估,该数据集包含32个ccMCT WSI中的44 880个MF注释,这些注释由为本研究提供病例的同一机构(使用相同的染色方案和WSI扫描仪)制作。该算法的训练数据集的基本事实由2名病理学家(主要研究者和本研究的参与者)通过仅使用HE图像的每个标记的一致性创建(pHH3免疫标记不可用)。

使用串联卷积神经网络的预测,通过计算机计算MC来推导MC密度图,即在2.37 mm2的盒子内(见上文),对于2.37 m m 2 mm^2 mm2含有95%以上组织的box。阶段2和3的MC- roi被选为MC地图中MF密度最高的图像位置。

pHH3-Assisted Ground Truth

为了评估病理学家和算法在对象水平上的性能(在高倍镜下识别和分类mc - roi中的单个mf),在磷组蛋白H3 (pHH3)免疫组化标记的协助下开发了一个地面真相数据集。pHH3是一种dna结合蛋白,主要针对细胞周期的有丝分裂阶段。组蛋白H3在早期前期被磷酸化(在HE切片中仍不清楚),但在晚期已经去磷酸化在Tellez等人的基础上,我们建立了一种协议来提取初始he染色切片,并对相同的组织切片进行免疫组化标记,以确保在两个WSIs中都表示完全相同的细胞对象。HE染色切片的盖层在二甲苯中孵育除去。在降浓度酒精系列(99%、80%)中孵育后,将载玻片在含0.37%氯化氢的70%酒精溶液中进行目视控制。脱除后进行免疫组化,包括内源性过氧化物酶阻断(10% H,0,),微波加热抗原提取(柠檬酸缓冲液),抗原阻断(山羊血清)。对于一抗,我们使用了Phh3克隆E173(兔单克隆,ab32107, Abcam),因为该产品在之前的犬类研究中使用过因为研究病例的he染色切片至少是在1年前产生的,所以抗体浓度更高为1:650(相对于1:1500的新组织切片)是必要的(基于本研究排除的病例;见上文)。二抗为山羊抗小鼠IgG (H+L)与碱性磷酸酶偶联,以1:200稀释培养。以3,3’-二氨基联苯丁(DAB)作显色剂,苏木精作反染色剂。ccmct作为阳性和阴性对照。如上所述,免疫标记玻片进行数字化处理。在纳入研究的50个组织切片中,有10个在免疫组织化学处理过程中(如果没有安装在胶粘剂玻片上)或免疫组织化学标记是非特异性的(与HE染色相比,内控),相关组织部分丢失。

因此,这些病例被排除在本研究的phh3辅助标记部分之外,也无法用于对象层面的性能评估。

按照这一步骤,我们从50例中的40例的同一组织切片中提取了2个WSIs(一个HE染色,另一个pHH3标记)。与使用重新切割的组织切片相比,该过程确保了两个WSIs中相同细胞对象的可视化。自动图像配准(根据Jiang等人26)被执行,以对齐两张图像,使组织在细胞水平上几乎完美匹配。使用新开发的SlideRunner插件,可以立即切换图片2的染色方法,因此很容易比较每个细胞的信息(图2),主要研究者(病理学家不是作为一个研究参与者)开发了一种地面实况数据集(pHH3-assisted地面真理)算法选择MC-ROIs阶段2和3的他图片注释所有的细胞阳性pHH3另外注释明确后期阶段MFs没有标签pHH3(晚期mf在所有注释中所占比例很小)。此外,如果各自参与者的MC高于阶段2,则在手动选择的MC- roi(阶段1)中进行phh3辅助计数,以评估哪个热点MC- roi(手动或算法选择)有丝分裂密度更高(基于phh3辅助计数)。

性能评估

MC被定义为MC- roi中参与者的注释数量。phh3辅助的MC为各自MC- roi中地面真理注释的数量。用观察者间相关系数(ICC)及其95%置信区间(95% CI)计算3个阶段间MCs的观察者间一致性。ICC描述了同一肿瘤病例病理学家的MC值彼此相似的程度。ICC评价为差= 0 ~ 0.39,一般= 0.40 ~ 0.59,良好= 0.6 ~ 0.74,优秀= 0.75 ~ 1.00.11,如果95% CI没有重叠,则认为差异显著计算各阶段病理学家之间的变异系数(CV)。CV(百分比)定义为标准差与均值之比。较小的CV百分比值代表变异性小。

根据MC > 58、35、42的预后截止点将MCs分为低和高的性能,通过正确(根据phh3辅助的地面真值低于或高于截止点)分类实例的数量除以所有实例的准确性来衡量。为了计算3个阶段之间的精度差的P值,采用了广义线性混合模型(GLMM)。我们使用正确的分类(1 =正确,0=不正确)作为结果拟合逻辑回归,并使用病理学家的随机效应来解释重复测量(每个病理学家40张幻灯片)。

词汇

imposters 冒名顶替者

  • 21
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值