介绍
到目前为止,数百万人已经接受了全基因组和全外显子组测序,这是一个巨大的投入,首次揭示了在我们物种内作为个体区分我们的巨大小遗传差异的广泛目录。然而,大多数这些基因变异的影响仍然未知,限制了它们的临床实用性和可操作性。能够准确区分致病突变和良性突变,并在全基因组范围内解释基因变异的新方法,将构成实现个性化基因组医学潜力的有意义的初始步骤。
方法
由于人类和非人类灵长类动物之间的进化距离很短,我们的蛋白质共享几乎完美的氨基酸序列相似性。因此,在一种物种中发现的蛋白质突变的影响很可能在另一种物种中是一致的。通过系统地对非人类灵长类动物的常见变异进行目录化,我们旨在将这些变异注释为不太可能引起人类疾病,因为它们在一个密切相关的物种中被自然选择所容忍。一旦收集到这些数据,结果资源可以应用于使用机器学习推断全基因组中未观察到的变异的影响。
结果
遵循上述策略,我们为233个灵长类动物物种中的809个个体进行全基因组测序,并记录了430万个常见的错义突变。我们确认,在至少一个非人类灵长类动物物种中出现的人类错义突变在ClinVar临床变异数据库中99%的情况下被注释为良性。相比之下,灵长类动物以外的哺乳动物和脊椎动物的常见变异在ClinVar数据库中的良性比例显著较低(71%至87%的良性),从而限制了这种策略的应用范围为非人类灵长类动物。总体而言,我们重新对超过400万个先前未知危害后果的人类错义突变进行了分类,认为它们很可能是良性的,使得注释错义突变的数量比现有临床数据库增加了50倍以上。
为了推断人类基因组中剩余错义突变的致病性,我们构建了PrimateAI-3D,一个半监督的三维卷积神经网络,可以在体素化的蛋白质结构上运作。我们将PrimateAI-3D训练为在三维空间中分离常见的灵长类动物变异和匹配的对照变异,以进行半监督学习。我们将经过训练的PrimateAI-3D模型与15个其他已发表的机器学习方法一起评估,以评估它们在六个不同的临床基准测试中区分良性和致病变异的能力,并证明PrimateAI-3D在每个任务中均优于所有其他算法。
结论
我们的研究解决了变异解读领域的一个关键挑战,即缺乏足够标记数据以有效地训练大型机器学习模型。通过生成迄今为止最全面的灵长类动物测序数据集,并将此资源与利用三维蛋白质结构的深度学习架构配对,我们能够在多个临床基准测试中实现变异效应预测的有意义改进。
该算法见github,https://github.com/Illumina/PrimateAI-3D
单个位点查询可以登陆https://primad.basespace.illumina.com/
大于0.8分认为有害。