【冷冻电镜|论文阅读】MicrographCleaner:基于深度学习的冷冻电镜图像清理Python包

题目

MicrographCleaner: A python package for cryo-EM micrograph cleaning using deep learning

摘要

本文开发了深度学习Python包——MicrographCleaner,旨在自动化颗粒挑选过程中,检测碳膜和高对比度污染物,区分适合于颗粒拾取的显微照片区域和不适合进行颗粒拾取的显微照片区域。

MicrographCleaner实现了一个类似U-Net的深度学习模型。数据集需要手工标记,有500多张训练集,100张左右的测试集。该软件包可以通过anaconda和pip安装,也可以在Scipion/Xmipp获得。

一、简介与背景

低信噪比和高对比度伪影和污染物在显微照片中的存在,降低了颗粒挑选算法的性能,而且增加了假阳性颗粒。这个问题可以通过使用不同的算法来缓解,这些算法可以在自动挑选颗粒后去除选择错误的颗粒。

  • em_hole_finder(2009):
    基于形态学图像处理运算,计算出碳孔周围的掩模。

  • EMHP (2017):
    基于图像滤波和阈值操作,然后通过圆拟合来执行类似的任务。

虽然当网格边缘清晰可见时,这两种方法都非常有用,但在显微照片中存在高对比度干扰的情况下,这两种方法都很困难。此外,这两种方法都需要人工监督,以确定显微照片中碳的存在,并设置一些用户定义的参数。因此,它仅适用于有监督的情况下。

最近,基于深度学习的颗粒拾取器被开发出来了,以提高挑选的精度,对假阳性更加稳健,它们中的大多数都被明确或隐含地设计为避免碳区域和大型污染物。

  • Warp
    Warp包中包含了一个这样的明确设计的粒子拾取器,通过执行显微照片的像素级分类(分段)来解决颗粒拾取问题,其中可能的类别之一是不理想区域。

虽然深度学习颗粒拾取器可能会越来越流行,但它们并不完美,不同的情况需要不同的方法,因此传统的粒子拾取器,特别是基于模板的粒子拾取器可能会继续流行。

针对这些挑战,为了改进经典的颗粒拾取器,补充基于深度学习的颗粒拾取器,我们开发了MicrographCleaner,这是一个全自动的、易于安装和易于使用的深度学习解决方案,它可以对显微照片进行像素分类,将它们分成两类,即desirableundesirable区域进行拾取。与Warp颗粒拾取器一样,MicrographCleaner依靠的是U-Net。

二、材料与方法

2.1 算法

MicrographCleaner计算显微照片的二进制分割,目的是勾勒出粒子拾取的最佳区域并隔离那些包含高对比度污染物和其他伪影的区域。 为此,MicrographCleaner实现了类似U-net的架构。 我们的模型经过交叉验证后经过精心选择,包括5个下采样块,然后是5个上采样块,每个块分别具有32、64、128、256和512个内核。

2.2 数据集

  • 训练集:
    从16个不同的EMPIAR条目中收集的539张手动分割的显微照片。
  • 测试集:
    从两个EMPIAR项目和另外两个内部项目中的97张显微照片的独立集上进行的。

训练集和测试集显微照片都包括干净含碳含污染含聚集区域的例子,以及由专家标记的混合区域

在显微照片被送入网络之前,需要一个先前的归一化步骤来调整显微照片的不同强度尺度和尺寸。因此,所有的显微图都要使用缩放策略和恒定的颗粒大小下采样,对强度和大小进行归一化。

由于GPU内存的限制,完整的下采样显微照片使用了大小256×256的重叠补丁的滑动窗口方法分块处理。

2.3 评价指标

mIoU:平均交并比。

三、实验结果

3.1 碳膜检测

使用包含碳的图像,计算人工标注和计算结果的交并比,和另外3个方法进行了比较:

  • MicrographCleaner
  • em_hole_finder
  • EMHP
  • Warp particle picker(WPP)

其中MicrographCleaner和WPP很快速,不需要参数,即不需要人工干预即可确定显微照片中是否存在碳。

本文方法MicrographCleaner比第二名WPP提高了20%的交并比。如表1所示:

在这里插入图片描述

3.2 不理想区域和污染物检测

MicrographCleaner对不理想区域和小污染物检测的评估是通过比较所有测试显微照片的预测掩模和Ground Truth来进行的。在这个测试中,MicrographCleaner的mIoU值为0.544。这个分数虽然比碳检测的分数低,但意味着GT和预测掩模之间有很好的一致性,特别是考虑到测试集包含干净的显微图例以及含碳和污染的显微图。

图1显示了四种不同显微图的预测结果,说明MicrographCleaner能够成功检测到污染物和碳。

此外还评估了WPP在整个测试集上的整体性能,显示出0.331的mIoU,并且在77%的显微照片上比MicrographCleaner的性能差。这表明当考虑到污染物检测时,MicrographCleaner在碳检测方面比WPP高出20%的性能也得以保持。

在这里插入图片描述

3.3 使用样例

本节中介绍了两个例子,但不包括在训练和测试集中,其中传统的颗粒拾取器和基于深度学习的拾取器都难以从干净的区域中分辨出问题区域和污染物,因此它们都可以从MicrographCleaner中获益。

作为深度学习的代表,我们选择了Topaz(Bepler等人,2019)和Cryolo(Wagner等人,2019)颗粒拾取器。Cryolo和Topaz算法都是使用10张人工挑选的显微照片进行训练的。此外,还采用了不需要任何训练的Cryolo通用模型。选择Relion autopicker(Scheres,2015)作为传统粒子拾取器的代表。

3.3.1 EMPIAR-10156

EMPIAR-10156数据集(von Loeffelholz等人,2018)给颗粒拾取器带来的主要困难是,它包含了大面积的碳区域(大于显微照片的50%),而且这些区域的强度并不均匀,无论是在单个显微照片内还是在整个数据集中。

因此,如图2所示,Relion和Cryolo粒子拾取器(使用一般模型和经过训练的模型)都倾向于拾取位于碳区域的粒子,而Topaz粒子拾取器能够避开大部分的碳区域,但仍然在边缘选择了许多假阳性颗粒。
在这里插入图片描述

值得注意的是,虽然使用更严格的阈值可以很容易地减少在碳区域/边缘拾取的颗粒数量,但这是以排除真阳性颗粒为代价的。因此,如图2所示,足够大的阈值丢弃了大部分的假阳性粒子,但也导致一些真正颗粒的拒绝。最终,这转化为精确度/召回率的权衡,大多数人倾向于后一种旨在连续步骤中去除假阳性的选项。而MicrographCleaner能够掩盖掉那些假阳性粒子,同时不影响真阳性粒子,因此它可以作为任何粒子拾取器的补充,独立于阈值决定。在图2中MicrographCleaner提出的解决方案比使用其他方法在不同阈值下直接得到的解决方案要好。

3.3.2 EMPIAR-10265

EMPIAR-10265数据集(Lee et al,2019)极具挑战性,大多数显微照片的颗粒难以可视化,而在其他一些图像中,则易于识别(分别参见图3和图4)。 由于存在如此巨大的差异,因此采用的基于深度学习的方法的性能要比其他数据集差,尽管它们能够避免较大的污染区域,但仍然选择了许多小污染物作为颗粒,如图3、4所示。同样地,可以通过增加阈值来减少选定污染物的数量,但颗粒的总数将大大减少。
在这里插入图片描述

在这里插入图片描述
因此,此数据集的阈值选择过程并非微不足道,因为显微照片差异很大,而在某些显微照片中检测到大多数颗粒的阈值会丢弃其他显微照片中的许多颗粒。

因此,应对每张显微照片进行手动检查,以在去除的污染物数量和回收的颗粒总数之间取得最佳平衡。 或者也可以手动拾取更多的显微照片以进一步训练一些方法,但代价也很高。

3.4 有利于二维分类

尽管前面的部分说明了MicrographCleaner能够减少许多粒子采集器的误报水平,但也可以说这种减少没有太大的影响,因为这种减少可以通过图像处理工作流程的后续步骤来实现,特别是在2D分类步骤中。

为了检验该假设,我们对第3.3.1节中考虑的四个粒子选取器所选取的每个粒子集进行了一个2D分类分析,并将所有结果与MicrographCleaner处理的粒子集进行了比较。 图5是一组已拾取颗粒的实验。
在这里插入图片描述
结果表明2D-clustering是一种更积极的策略,它比MicrographCleaner去除更多的颗粒(20%到40%,而不是9%到25%)。显然,这些结果并不奇怪,因为MicrographCleaner的设计并不是为了去除某些类型的假阳性案例(如背景),而2D分类可以。

当统计被MicrographCleaner去除,但在2D-classification后未被排除的颗粒数量时,可以得出最有趣的结论(我们承认,通过2D分类修剪颗粒具有一定的主观性,难以精确重现)。

我们测算出被MicrographCleaner丢弃的颗粒中,有19%到29%的颗粒存活到了2D分类过程中。更有趣的是,当进行第二步2D分类时,未被去除的颗粒数量虽然较少,但仍然相当可观(10%到20%之间,见补充材料S9)。这表明MicrographCleaner和2D分类最好被视为互补的选择。

四、讨论与结论

本文的算法专注于检测那些可能用较低质量的颗粒贡献的显微照片区域。因此,我们可以从任何挑选方法中只选择那些在显微照片的最佳区域中发现的颗粒。我们的评估也显示了这种上下文方法如何为其他传统的颗粒选择程序提供一个很好的补充。例如,在通过二维分类进行修剪时,相当大比例的不正确颗粒往往被二维分类清洗所接受,相反,使用我们的方法检测并丢弃了这些颗粒。因此,根据机器学习领域的一般趋势,即顶级性能的解决方案是基于方法的集合,很可能顶级性能的图像处理或预处理工作流很可能通过结合不同的方法来构建,特别是在面对困难样品时。

MicrographCleaner是一个易于安装和使用的python包,它允许高效和自动地进行显微照片分割,目的是防止颗粒采集器在显微照片上选择不适当的区域。与其他碳和污染物检测方法相比,其结果更接近于人类标准。

总之,MicrographCleaner是一种强大的方法,可以在冷冻电镜工作流程的一开始就被应用,甚至是在实时/流处理管线内,输入干净的粒子集,从而获得更好的处理性能。

项目源码指路:GitHub地址
论文指路:论文链接


A u t h o r : C h i e r Author:Chier Author:Chier

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
05-22 2072
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值