PNAS | 基因组预训练网络模型精准预测 DNA 突变

AAAsuan

于 2024-08-07 04:13:10 发布

阅读量29

点赞数

❝

我们能教会计算机理解人类语言，同样也能让它们读懂DNA。

2023年10月31日，加利福尼亚大学伯克利分校的科学家们在《美国科学院院刊》（PNAS）上发表了一篇突破性研究，提出了一种基于无监督DNA语言模型的新方法，该方法在全基因组范围内预测基因变异效果上，超越了现有的保守性评分模型。

PNAS | 基因组预训练网络模型精准预测 DNA 突变_生物信息

研究团队开发的“基因组预训练网络”（Genomic Pre-trained Network, GPN）模型，通过对植物基因组数据的无监督预训练，学习了基因变异的功能影响。GPN模型使用拟南芥及其相关物种的基因组序列进行训练，并利用1001基因组项目和GWAS数据库对其效果进行了评估。

GPN模型的预训练过程包括掩盖基因组序列中的15%位置，并预测这些位置上的碱基。这一训练方法使得模型能够有效学习并区分基因结构和DNA基序，且无需任何监督。此外，模型对重复元素的预测进行了加权处理，以减少这些区域对整体训练效果的影响。

PNAS | 基因组预训练网络模型精准预测 DNA 突变_聚类_02

GPN模型在基因区间的无监督聚类方面也表现出色，能够区分基因间区、内含子、编码区和非编码RNA等不同基因区间。通过UMAP算法对基因区间进行聚类，模型在编码区的分类准确率高达96%。

PNAS | 基因组预训练网络模型精准预测 DNA 突变_生物信息_03

在预测基因变异效果方面，GPN模型同样表现出色，尤其在拟南芥中，其预测准确性超越了基于保守性评分的phyloP和phastCons。GPN模型的变异得分与群体中的变异频率相关，低得分变异在群体中较少见，这可能表明这些变异受到了净化选择。

PNAS | 基因组预训练网络模型精准预测 DNA 突变_数据_04

GPN模型为基因组变异效果预测领域带来了新的希望，尤其适用于那些缺乏丰富功能基因组数据的物种。它不仅能够辅助GWAS进行更精细的定位和多基因风险评分，还能促进稀有变异的鉴定。随着AI技术的不断进步，GPN模型的应用前景将更加广阔。

作者：生物信息与育种，请关注同名微信公众号：生物信息与育种。

原创作者: u_15668923 转载于: https://blog.51cto.com/u_15668923/11669171

关注