华大基因大语言模型驱动方法,助力识别罕见遗传疾病的致病变异

近年来,人工智能(AI)技术飞速发展,正逐步成为基因组医学创新发展的重要驱动力,在罕见遗传病的诊断上更是显示出巨大潜力。据统计,全球有数亿罕见遗传病受累者,其中患者近半数疑似病例却未得到诊断,而已确诊病例的平均诊断周期也长达数年。为此,国际罕见病联盟设定目标,期望所有患者能在就诊后一年内获精准诊断。随着基因测序技术在临床应用上的普及,使部分分子机制已知的罕见病检测周期得以缩短至数周。然而,要在海量的基因组变异中快速而准确地识别出致病因素,仍是一项艰巨的任务。面对挑战,华大基因依托其在多组学大数据技术领域的深厚积累,结合AI算法,开发出了智能化筛选工具,以加速罕见遗传病的诊断进程。

经过十年的发展,AI在识别罕见遗传病致病基因和变异筛选方面取得了重大突破。AI技术利用语义相似性,将患者的表型与已知疾病相关基因之间的建立联系,并结合变异位点的注释信息构建评分或者预测模型,从而过滤与排序候选变异。但这些方法大多受限于对标准化症状描述的依赖,转化过程耗时费力,高度依赖于基因型与表型关联数据库的全面性以及患者临床症状描述的准确度。

华大基因作为全球精准医学和公共卫生领域的引领者,一直致力于推动多组学大数据技术推动科研与临床应用转化。华大基因AI研究团队引入了大语言模型(LLM)这一新工具。LLM凭借其处理大规模文本数据和复杂问题的能力,将助力临床医生和研究人员更高效地识别疾病相关的基因和变异。在此基础上,华大基因AI团队成功开发出大语言模型驱动的新方法——Genetic Transformer(GeneT),该方法在罕见遗传病致病变异的识别上取得了突破性进展。

华大基因的GeneT方法利用了公开数据构建的数万例阴阳性病例作为训练数据集,并采用资深遗传病分析专家的解读思维链构建提示词作为模型微调的基础,有效引导基础大语言模型学习罕见遗传病致病变异筛选的能力。

实验结果显示,在较少的训练集(n=800)情况下,GeneT微调模型已能够展现出良好的预测性能,F1分数高达90%;而当训练样本数量增至20000例时,F1分数更是超过了99%。此外,小参数量的LLMs(如Qwen-1.5-0.5B和Qwen-1.5-1.8B)在资源受限或对隐私和安全有特殊要求的环境中,由于其较低的硬件需求和更快的响应时间,有时比大参数量的LLM表现得更为出色。

在多元化表型适用性和性能评估方面,华大基因GeneT方法在不同类型的表型数据集上均展现出广泛的适用性和高效性。它能够大大减少候选变异数目,且在多类表型测试集的评估中,GeneT均超越了当前最先进的排序方法。此外,GeneT运用预测概率作为置信度分值,对所有候选位点进行排序,具备了替代传统排序工具的能力。

在真实临床场景下的应用评估中,华大基因GeneT方法同样表现优异。应用了GeneT辅助初筛的专家,观察耗时显著减少,从60分钟降至约44分钟。如果在初筛环节直接使用GeneT的结果,观察时长则可以缩短至3分钟左右,效率提高约20倍。不论是单纯参考模型筛选的结果,还是直接采纳其作为初筛的依据,GeneT均能有效增强召回率,使之从原有的94.36%显著提升至97.40%/97.85%。此外,GeneT的应用还使得不同解读专家间的召回率差异从约20%缩小到了5%,这进一步证明了GeneT的稳定性和实用性。

华大基因引入大语言模型,创新性地开发出GeneT方法。这不仅提高了识别罕见遗传病致病变异的效率和精确度,还显著缩短了诊断周期,为罕见遗传病防控事业提供了强有力的技术支持。未来,华大基因将继续深化AI技术在基因组医学中的应用,推动科研成果转化,为全球精准医学水平的提升做贡献。

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值