任何生物学学生都能轻松辨认出一张神经元的照片。人类大脑经过数百万年的进化,对于如何轻松“分割”复杂的视觉信息驾轻就熟。然而,要训练计算机执行类似的任务则要困难得多,算法必须从基本原理开始学习,模仿人类的视觉对计算机而言是一个相当棘手的挑战。
然而,在生命科学研究中,模仿人类视觉的能力变得越来越重要。随着生物成像实验的规模和复杂性的增加,对于能够在最小程度上依赖人工干预的计算工具来分割细胞和亚细胞结构的需求也在增加。生物数据的种类繁多,而且可以通过多种方式进行成像,这使得分析一个数据集的时间可能比收集它的时间还要长。值得乐观的是,深度学习的算法架构显示出加速生物计算进程的强大能力。
学习经验
在计算机辅助分割的早期阶段,生物学家需要进行大量的人工干预。对于每个实验,研究人员必须仔细定制他们的算法,以便能够识别特定标本中细胞之间的边界。例如,像CellProfiler(由麻省理工学院和哈佛大学的计算机科学家共同开发的图像分析工具)和ilastik(通过机器学习简化图像分析的过程)这样的图像分析工具,用户通过示例训练这些软件,标记演示图像并为软件创建样板。然而,这种方式并不普适,因为每个训练过程都是针对特定实验进行优化的(例如,检测用特定荧光染料标记的小鼠肝细胞)。
如今,深度学习领域正在经历一场地震般的变革。通过使用神经网络架构的算法,软件能够轻松模仿大脑组织,在接受大量信息训练后能够推断出复杂的模式。将这些算法应用于图像数据,可以得出对代表细胞和其他生物物体的特征更可靠、更一致的定义——不仅在一组给定的图像中,而且在跨多种情景下。
在这方面,深度学习框架U-Net表现尤为突出,它是由德国弗莱堡大学的计算机科学家奥拉夫·隆内贝格(Olaf Ronneberger)及其同事于2015年开发的。实际上,在近十年后的今天,它仍然是大多数图像分割工具的底层架构。在这一领域,许多最初的工作都集中在识别细胞核上。细胞核通常较大,呈椭圆形,在不同细胞类型之间外观变化很小,几乎每个哺乳动物细胞都包含一个。但在细胞密集的组织样本中,细胞核可以非常紧密地堆积,识别细胞核仍具挑战。2019年,匈牙利塞格德生物研究中心团队基于U-Net开发出一种名为nucleAIzer的算法,在前一年的 "数据科学碗 "挑战赛中,该算法在光镜核分割方面的表现优于数百种其他工具。
即便算法能够找到细胞核,推断出其余细胞的形状仍然非常棘手。其他算法的目标是制定更全面的战略。例如,洛桑瑞士联邦理工学院的生物成像专家开发的StarDist,可以生成星形多边形,用于分割细胞核,同时还能推断出周围细胞质更复杂的形状。与此不同,CellPose采取了一种更为通用的方法,该软件由Janelia的计算神经科学家于2020年开发。CellPose能够推导出 "流场",描述光学显微镜中常用的分子标签在细胞内的扩散情况。这使得CellPose能够以高准确度地将堆积的细胞很好地分开,更重要的是,它具有广泛适用性,可用于各种光学显微方法和样本类型。
基础训练
细胞识别的关键在于训练——更好的数据,更好的标签。CellPose的使用需要大量的数据集,研究人员收集尽可能多的显微镜图像,构建了一个庞大且具有广泛代表性的训练数据集,其中包括非细胞图像以提供明确的反例。这些图像输入到软件中,以便算法能学习定义这些元素的特征。然而,构建一个庞大、手动注释的训练集十分费时费力,深度学习专家正在开发更聪明而不是更辛苦的工作策略。
多样性是一个优先考虑的因素。首先,相较于只有一个组织类型的图像,对多种组织进行多种染色和标记方法的图像集更有可能产生通用于不同实验的结果。其次,将不完美的图像(例如失焦图像)包括在内很有价值,这样可以教会算法克服真实数据中的此类问题。
另一种重要因素是,让算法进行大规模注释,然后人工进行校验。加州理工学院的系统生物学家Van Valen和同事利用这种“人在循环中”的方法来开发TissueNet图像数据集,其中包含100多万个注释的细胞核对。他们让一个由新手和专家组成的众包社区负责校正深度学习模型的预测结果,该模型仅在80张手动标注的图像上进行了训练。Valen团队随后开发了一个名为Mesmer的分割算法,在使用TissueNet数据进行训练后,该算法可以与人类的分割能力相媲美。即便如此,为新任务重新训练仍然是一项繁琐的任务。
为了简化这一过程,近期生物图像模型动物园(BioImage Model Zoo)被开发出来,这是一个预训练深度学习模型的社区资源库。用户可以搜索相应的图像分割模型,而不用自己费力地训练。
突破极限
仅仅在几年间,计算图像分割在生物成像方面取得飞速发展, 至少在细胞核和细胞分割的问题在未来几年将迎刃而解。研究人员在处理更具挑战性的图像类型方面也取得了进展。例如,许多空间转录组学研究涉及多轮组织标记和成像,其中每个标记或标记集合显示了特定基因的RNA转录本。然后将这些图像与细胞本身的图像一起重建,以创建具有细胞分辨率的整个组织的基因表达谱。
但基因表达“斑点”的识别和解释很难自动化。“当你实际打开这些原始图像时,你会看到斑点实在太多,人类根本无法手动标记,” Valen说。这反过来使得训练变得困难。Valen团队开发了一个深度学习网络,借助经典计算机视觉算法,神经网络可以有效地识别这些斑点。研究人员随后将此神经网络集成到一个名为Polaris的处理进程中,这是一个通用的解决方案,可用于对各种空间转录组学实验进行端到端分析。
相比之下,光学显微镜的3D体积分析仍然非常困难。首先,公开可用的3D成像数据极度短缺。其次,标记3D数据十分繁琐复杂。不仅如此,与2D显微镜相比,3D数据质量和格式的变化也更为极端,因此需要更大、更复杂的训练数据集。近期,通过“体积电子显微镜”方法生成的3D数据的分割取得了显著的进展。但是,解读电子显微图像却面临着新的挑战。在电子显微镜中,研究人员必须区分一个信号与所有其他类型信号的不同之处,体积电子显微镜加大了这一挑战,需要对一系列薄样本切片进行重建,这些样本以惊人的细节和分辨率记录了细胞及其环境。
与光学显微镜一样,U-Net也取得了显著的成果。在今年6月发布的一份预印稿中,FlyWire联盟描述了将基于U-Net的算法应用于重建成年果蝇大脑联接,其中包括大约130,000个神经元。对826个随机选择的神经元的评估发现,该算法达到了99.2%的准确率。用于连接组学的分割算法现在已基本成熟,尽管在全脑尺度上对这些神经环路图进行校对仍然是一项艰巨的任务。
奇异的解决方案
跨不同成像平台的互操作性仍然是一个挑战。例如,在组织学中常用的苏木精-伊红染色标记的样本上训练的算法可能在共聚焦显微镜图像上表现不佳。类似地,专为电子显微镜分割而设计的方法通常与光学显微镜数据不兼容。由于每种技术,它们以显著不同的比例捕捉生物标本,并由于不同的染色、不同的处理方案而强调不同的特征。如果在跨任务间能表现良好,深度学习模型必须在所有领域任务中都表现出色。
除了更大、更广的训练集之外,这类模型几乎肯定需要超越 U-Net 的舒适范围的计算架构。Transformers,一种深度学习算法,使深度学习更容易识别数据中微妙但重要的模式。Transformers是大型语言模型ChatGPT和蛋白质结构预测算法AlphaFold的核心构架。2022年神经信息处理系统会议(NeurIPS)挑战赛获胜算法,是利用了transformers取得了超越其他算法的决定性优势。Transformers这有助于模型专注于相关的细胞或组织结构,同时忽略一些噪音,国际上很多研究团队正基于此开发基础模型。
与此同时,许多研究人员正在将他们开发的工具应用于更有趣的领域。例如,霍华德-休斯医学研究所团队正在利用分割派生的见解,根据神经元的形态学对其功能特征进行分类,在连接组图中分辨抑制性细胞和兴奋性细胞的特征。塞格德生物研究中心的团队则合作开发了一种称为深度视觉蛋白质组学的方法,该方法利用深度学习算法获得的结构和功能特征来划分组织样本中的特定细胞,然后可以精确地提取这些细胞,并对其进行深度转录组学和蛋白质组学分析。这可能为剖析癌症分子病理学和确定适当的治疗途径提供强有力的工具。
总体而言,深度学习算法在生物学领域展现出巨大的前景和潜力。这为科学家们提供了更强大的工具来处理和分析复杂的生物图像数据,有望推动生物医学研究和医学诊断的进步。
扫码关注
Reference:Nature 623, 1095-1097 (2023) https://doi.org/10.1038/d41586-023-03722-y
文中观点不表明脑极客任何立场,侵权即删