探索大语言模型在DNA 分析到表达预测以及生物信息学应用

概述

论文地址:https://arxiv.org/abs/2401.04155

随着 OpenAI 的 GPT-X 和谷歌的 BERT 等大规模语言模型的出现,自然语言处理领域得到了飞速发展。这些先进的模型将理解和生成人类语言的能力发挥到了极致,彻底改变了日常交流和业务流程。

大规模语言模型通过研究互联网上的大量文本数据来学习语言的复杂性和语境,从而深刻理解文本的含义并做出适当的反应。这些模型的基础是一种名为 "转换器 "的创新型神经网络架构。这就实现了处理的并行化和可扩展性,同时捕捉文本的长程依赖关系。

特别值得一提的是转换器采用的 “自我关注机制”。在解释句子时,它会评估每个单词的重要性,从而加深对上下文的理解。这一技术是该模型取得卓越性能的关键。

学习分为两个阶段:预习和微调。在预学习阶段,使用大量的文本语料库来发展语法、事实知识和推理技能。通过微调,这些模型还能针对特定任务(如翻译、总结、问题解答)进行优化。它们的适应性使其能够处理各种自然语言处理任务,而无需依赖特定的架构。它们还具有应用于各种领域的潜力。

本文探讨了如何将大规模语言模型应用于各种问题。由于介绍的例子非常多,本文只选取其中一部分进行介绍。

大规模语言模型在生物信息学中的应用

在生物学研究中,破译 DNA 中蕴含的语言并揭示隐藏的代码一直是一个主要目标。特别是通过使用 BERT 和 GPT 等现代架构的模型,在破译标志着 DNA 翻译成蛋白质的通用遗传密码方面取得了进展。

DNABERT 采用基于注意力的强大转换器架构,该架构已被广泛应用于各种自然语言处理任务。DNABERT-2 引入了基因组理解评估(GUE),这是一个用于多物种基因组分类的综合数据集。与之前的模型相比,该模型的效率提高了三倍,在使用的 28 个数据集中,有 23 个数据集的结果有所改善。

GROVER 还使用 DNA 语言模型,采用字节对标记化技术,对人类基因组进行详细分析。该模型可识别标记之间的上下文关系,并帮助识别与功能基因组注释相关的基因组区域结构。 GROVER 的独特方法对于探索基因组复杂性的研究人员来说非常宝贵。

此外,DNAGPT 是在 GPT 系列取得成功后开发的,它是基于 GPT 的 DNA 模型,已在超过 100 亿个碱基对的数据集上进行了预训练,可针对各种 DNA 测序分析任务进行微调。核苷酸转换器还开发了四种不同规模的语言模型,并在涵盖多个物种的三个不同数据集上进行了预训练。

这些预训练模型已被应用于多种序列预测任务,包括启动子区域、增强子区域、顺式调节元件、剪接位点和转录因子结合位点的预测。

大规模语言模型在生物信息学中的一个应用是 DNA 序列语言模型预测全基因组突变效应DNA 变异对生物多样性的重要性是巨大的。全基因组关联研究(GWAS)在阐明这一点方面发挥着重要作用,但识别因果变异却是一项重大挑战。为应对这一挑战而开发的基因组预学习网络(GPNs),旨在通过无监督预学习获得全基因组变异效应的知识;GPNs 使用特定位置屏蔽的 512 碱基对 DNA 序列预测核苷酸,然后可用于识别全基因组的变异效应、它特别擅长准确捕捉罕见突变的影响。它已证明有能力从一系列物种的 DNA 序列中预测突变效应,而且该技术有助于正在进行的研究,以了解 DNA 序列突变与生物多样性之间的复杂关系。

第二个是预测顺式调控区域的 DNA 序列语言模型。鉴别调控基因表达的顺式调控序列(尤其是增强子和启动子)至关重要,因为它们对发育和生理功能都有影响。识别这些序列是一项重大挑战,而 DNABERT 和 GROVER 等预训练模型的开发就是为了提高识别的准确性。例如,BERT-Promoter 使用预先训练的 BERT 模型来识别启动子活性,并应用先进的机器学习算法来建立最终的预测模型。另一方面,iEnhancer-BERT 使用基于 DNABERT 的过渡学习方法来增强启动子预测,并使用卷积神经网络对特征向量进行分类。这些模型在揭示基因表达背后的机制和识别新的 DNA 增强子方面取得了可喜的进展。

第三是预测 DNA 蛋白相互作用:准确识别 DNA 蛋白相互作用对于理解基因表达调控和进化过程至关重要。DNABERT、DNABERT-2 和 GROVER 等模型就是针对这一重要任务开发的&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知来者逆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值