转载自谷歌开发者社区(GDG)
![](https://i-blog.csdnimg.cn/blog_migrate/484e02e744e2f6cc2c0f665a0b2c40fe.png)
(在 Google 开放源代码博客上交叉发布)
在许多科学领域,特别是基因组学领域,重大突破通常都是由新技术带来的。从让人类基因组测序成为可能的 Sanger 测序到实现首批大规模全基因组实验的微阵列技术,新的仪器和工具使我们能够更深入地了解基因组,并将研究成果广泛应用于医疗、农业和生态学等领域。
基因组学中最具变革性的新技术之一是高通量测序技术 (HTS),这项技术在 21 世纪初首次实现商业化应用。HTS 让科学家和临床医生能够以较低成本快速地大规模生成测序数据。不过,HTS 仪器的输出并不是被分析个体的基因组序列 – 对于人类来说,这意味着 30 亿个碱基对(鸟嘌呤、胞嘧啶、腺嘌呤和胸腺嘧啶)组成的 23 对染色体。相反,这些仪器产生的是大约 10 亿个短序列,称为 read。每个 read 仅代表 30 亿个碱基中的 100 个,每个碱基的错误率在 0.1-10% 的范围内。将 HTS 输出处理成单一、准确且完整的基因组序列是一项主要的突出挑战。这个问题在生物医学应用领域尤其重要,这促使瓶中基因组联盟 (GIAB) 等组织不断努力,GIAB 发布了可用于验证和基准测试的高可信度人类参考基因组,还组织了 precisionFDA 社区挑战赛,这项比赛旨在促进创新,提高基于 HTS 的基因组检测的质量和准确性。
![]() |
对于基因组中的任何给定位置,在大约 10 亿个 read 中有多个 read 包含该位置的一个碱基。每个 read 与一个参考碱基对齐,然后将 read 中的每个碱基与该位置的参考碱基进行比较。当 read 包含一个与参考碱基不同的碱基时,它可能表示一个变异(真实序列的差异),也可能是错误。 |
今天,我们宣布 DeepVariant 的开放源代码版本,它是一种深度学习技术,可以从 HTS 测序仪数据中重构真实的基因组序列,与以前的经典方法相比,准确性显著提高。这项工作是 Google Brain 团队与 Verily Life Sciences 合作进行两年多研究的成果。DeepVariant 将变异识别任务(即基因组中的重构问题)转化为适合 Google 现有技术和专业知识的图像分类问题。
![]() |
以上 4 个图像都是与参考基因组对齐的实际测序仪 read 的可视化。一个关键的问题是如何使用这些 read 来确定变异存在于两条染色体上,仅存在于一条染色体上,还是在两条染色体上都不存在。有不只一种类型的变异,其中 SNP 和插入/缺失变异最常见。A:一对染色体上真实的 SNP;B:在一条染色体上缺失;C:在两条染色体上缺失;D:由于错误引起的假变异。使用这种方式进行可视化时,很容易看出这些变异的差别。 |
我们从 GIAB 参考基因组开始,因为它提供了高质量的真实值(或者当前可能的最接近近似值)。使用这些基因组的多个重复,我们以编码 HTS 仪器数据的多通道张量形式生成了数千万个训练样本,然后训练基于 TensorFlow 的图像分类模型,以便从仪器生成的实验数据中识别出真实的基因组序列。尽管由此产生的深度学习模型 DeepVariant 没有关于基因组学或 HTS 的专业知识,但在一年时间内,它已经赢得了 precisionFDA Truth Challenge 挑战赛的最高 SNP 准确率奖,超越了最先进的方法。自那以后,我们进一步将错误率降低了 50% 以上。
DeepVariant 现在作为开放源代码软件发布,旨在鼓励协作和加速使用这项技术来解决现实世界的问题。为了进一步实现这个目标,我们与 Google Cloud Platform (GCP) 合作,在 GCP 上部署了当前可供使用的 DeepVariant 工作流程,利用可扩展的 GCP 技术(如 Pipelines API)优化配置,降低成本并缩短周期。这一发布让用户可以在当前的计算环境中顺利地探索和评估 DeepVariant 的功能,同时我们还提供了可扩展的云解决方案,以满足最大基因组数据集的需求。
DeepVariant 将率先利用 Google 的计算基础设施和机器学习专业知识来更好地理解基因组,以及为研究社区提供基于深度学习的基因组学工具。我们希望将 Google 技术应用于医疗保健和其他科学应用,并让更多人利用这些工作成果,目前的工作是这一宏伟目标的一部分。 <!—->
Source: DeepVariant:利用深度神经网络重构高度精确的基因组
除非特别声明,此文章内容采用知识共享署名 3.0许可,代码示例采用Apache 2.0许可。更多细节请查看我们的服务条款。