Mol Plant | 基于植物基因组的DNA大语言模型

Abstract 

摘 要

近日,扬州大学农学院张韬教授课题组在Molecular Plant在线发表了题为PDLLMs: A group of tailored DNA large language models for analyzing plant genomes的研究论文,开发了一系列基于植物基因组的基础DNA大语言模型,该研究构建的130M大小的plant DNAMamba模型仅以十分之一的参数量就打败了由InstaDeep、Google DeepMind顶尖机构联合开发的同类模型AgroNT。模型的开发填补了植物基因组研究中缺乏适宜本地化运行的基础DNA大语言模型的空白。

728043d543d01e21ae8a4260b09d53d4.png

https://doi.org/10.1016/j.molp.2024.12.006

研究背景

 Background

大语言模型(Large language models,LLMs)是一类利用大规模数据进行预训练的语言模型,在过去的几年间,LLMs已在生成式人工智能领域得到了广泛的应用,如ChatGPT、Stable Diffusion等。传统大语言模型最初被设计用于处理人类语言,近年来也逐渐被应用于DNA和氨基酸序列的分析中,它可以在复杂的生物大数据中学习到特定的模式或相关性,从而实现对基因组任务的预测。近年来,许多代表性的基础DNA大语言模型被开发出来,包括HyenaDNA (Nguyen et al., 2024)、DNABERT-2 (Zhou et al., 2023)和Nucleotide Transformer(NT)(Dalla-Torre et al., 2024)等,这些模型在组蛋白修饰,启动子,增强子,剪切位点等任务上都展现出了良好的预测能力。然而这些模型主要基于人类基因组或其他非植物的基因组进行构建,因此在植物基因组分析中存在限制。最近InstaDeep、Google DeepMind团队共同开发了一个植物的基础DNA大语言模型AgroNT (Mendoza-Revilla et al., 2024),在多个基因组任务中均表现优异,然而该模型较大,不适用于个人和缺乏计算资源的实验室。鉴于此,扬州大学张韬团队构建了一套专为植物基因组量身定制的DNA大型语言模型——Plant DNA Large Language Models (PDLLMs),能够在单张消费级显卡上实现高效的训练和推理。

研究内容

Contents

在该研究中,作者首先基于14个代表性的植物参考基因组,结合5种先进的基础架构设计,包括BERT, NT, GPT, Gemma和Mamba,构建了一系列大小在100M左右且适用于植物的基础DNA大语言模型。之后作者构建了一套植物基因组预测数据集,包含核心启动子、序列保守性、多种组蛋白修饰、lncRNAs、开放染色质和启动子活性的预测任务。将先前构建的不同DNA大语言模型应用到这些预测任务中,并与3个代表性DNA大语言模型(DNABERT-2、NTv2和AgroNT)进行比较,结果表明该研究构建的大语言模型整体上优于其他非植物的DNA大语言模型。除此之外,基于Mamba的植物DNA大语言模型几乎在所有预测任务中均强于比其参数量多10倍的植物基础模型AgroNT。说明基于新架构的DNA模型在效率和性能上都更有优势,并且能够更好地被个人用户使用。

考虑到不同分词方式(tokenizer)对模型性能的影响,作者也比较了不同分词方式的plant DNAMamba模型在预测不同基因组任务时的效果。结果发现基于K-mer的分词方法和基于BPE分词方法的模型在不同任务上的表现存在差异,这些差异很有可能来自于预测序列的长度,序列组成以及任务类型等。作者总结了单碱基分词,1-mer至6-mer分词以及BPE分词下模型在不同任务上的预测效果,供用户参考以选择最合适的分词方法。

a24117c200ef371f1d2bba7c2823b774.jpeg

图1. 植物基础DNA大语言模型的构建和比较

该研究进一步比较了DNA大语言模型和非大语言模型在植物基因组预测任务中的性能。结果发现不论是在lncRNAs任务,启动子强度任务还是开放染色质预测任务上,plant DNAMamba模型表现都优于基于CNN或者LSTM架构的专用深度学习模型。该结果反映出了DNA大语言模型的高效和普适性,仅需要单个基础模型就可以实现多种基因组任务的预测和分析。

最后,作者基于所有构建的模型,开发了一个用户友好的在线预测平台,支持多种核心基因组任务的预测,同时提供了最优模型的推荐,方便湿试验人员快速进行序列分析。预测平台的访问地址为:

https://finetune.plantllm.org或https://bioinfor.yzu.edu.cn/llms/finetune。

3877903d5bc713e690e51c46241f00ff.jpeg

图2. PDLLMs在线预测平台

综上,该研究构建了一系列植物基础DNA大语言模型,能够在单块消费级显卡上进行训练和推理,为个人或缺乏计算资源的实验室提供了选择。此外研究展现了植物基础DNA大语言模型在基因组预测中的强大能力,构建的DNA大语言模型和植物基因组预测数据,为后续更高性能的DNA大语言模型的开发提供了参考。可以预见DNA大语言模型的完善将为解析复杂的生命现象、推动作物改良事业作出不可替代的贡献。

为了方便开发者使用相关模型,作者同时将模型的微调和推理代码上传到了GitHub (https://github.com/zhangtaolab/Plant_DNA_LLMs)和Gitee (https://gitee.com/zhangtaolabyzu/Plant_DNA_LLMs)上。同时已开放“植物大语言模型交流QQ群”(756369317),方便用户交流和讨论模型训练和推理时存在的问题。

扬州大学农学院张韬教授为该论文的通讯作者,扬州大学博士生刘冠卿为该论文的第一作者。该研究得到了国家自然科学基金、江苏省重点研发计划(现代农业)、钟山生物育种实验室课题、江苏省高校优势学科建设工程项目的资助。

参考文献:

Dalla-Torre, H., Gonzalez, L., Mendoza-Revilla, J., Lopez Carranza, N., Grzywaczewski, A.H., Oteri, F., Dallago, C., Trop, E., de Almeida, B.P., Sirelkhatim, H., et al. (2024). Nucleotide Transformer: building and evaluating robust foundation models for human genomics. Nat Methods 10.1038/s41592-024-02523-z.

Mendoza-Revilla, J., Trop, E., Gonzalez, L., Roller, M., Dalla-Torre, H., de Almeida, B.P., Richard, G., Caton, J., Lopez Carranza, N., Skwark, M., et al. (2024). A foundational large language model for edible plant genomes. Commun Biol 7:835. 10.1038/s42003-024-06465-2.

Nguyen, E., Poli, M., Faizi, M., Thomas, A.W., Sykes, C.B., Wornow, M., Patel, A., Rabideau, C., Massaroli, S., Bengio, Y., et al. (2024). HyenaDNA: long-range genomic sequence modeling at single nucleotide resolution. Proceedings of the 37th International Conference on Neural Information Processing Systems.  Curran Associates Inc.

Zhou, Z., Ji, Y., Li, W., Dutta, P., Davuluri, R., and Liu, H. (2023). DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome. arXiv 10.48550/arXiv.2306.15006.

来源:MPlant植物科学

高颜值免费 SCI 在线绘图(点击图片直达)

4c23d747c5c4f0042362eaba1a215c60.png

最全植物基因组数据库IMP (点击图片直达)

75fcee140200e36d5f150b67eb0d292e.png

往期精品(点击图片直达文字对应教程)

3ff8d6ff0657fca3aefb15aa58bb41f7.jpeg

fe1a2d80409950210c5f55d4a28c6235.jpeg

4d1812a156a115f38759c1f94bc6e823.jpeg

370cd10acf3e2ef33cf69e946cb7b9e3.jpeg

5bf253e237875ba0ae579a71d4667cba.jpeg

b830fe04e5ebbfab5523c010620171e6.jpeg

9452536e8736560214a4de15664b4b05.jpeg

99f5db08af32ac5b1198262a7c696e6b.jpeg

d1939acba1c5efd375e1774436a1e834.jpeg

6df87749bdff140ceffcf303ba2339c4.jpeg

89b8d6dae39afcd8ed31a12d9909114e.jpeg

50bb79af5c65d81cea4ec074db0b4340.jpeg

e31873ec7ba81580d93f00bcdc288c6c.png

b0415ce82b1853752a085b4640cf99c6.png

8f2c9a9bcd7e483a8e04ee23d71c9c0f.png

42ae42ba7a47fb7d6ea9bc00916bdc9b.png

1b74ac142adf44ca23d6f9b86351a497.jpeg

4c1c17e4c0b29de14f5b061f89b0b202.jpeg

8c4c764ccdef61c7961e03c3278375c7.jpeg

e009fde94d75765f3ceeed07cd9ed68b.jpeg

08fcb6e80e7324f03acd40a940e6eedd.png

af221c9c4922deb0213538edabc62de2.png

d3353baa2181987fde519e5aba651639.jpeg

c6fbc8682a2b2e378905df1bc8a0a49b.png

a5b2fbb39caebd6ed6bd35d7bf5839a3.png

3313e6f51c314d097e0e19726e051959.jpeg

828510883c404d17541947b06a37d929.png

45107fa056aef02e27cacc52097644d2.png

机器学习

67a8d718e5fe33f23dcbcc02d54beaf4.jpeg

00333cdecdf1a149a985f949e4fa18d7.jpeg

7a0f2d23d721dee6c18c25941572e8dd.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值