TourSynbio: A Multi-Modal Large Model and Agent Framework to Bridge Text and Protein Sequences for Protein Engineering
1、论文概述
本文提出了 TourSynbio-7B 这一专为蛋白质工程任务设计的多模态大模型,以及基于此的 TourSynbio-Agent 智能体框架,旨在填补蛋白质工程领域中深度学习模型与蛋白质序列理解之间的差距,提高蛋白质工程任务的效率和性能。
研究背景
蛋白质工程的重要性:蛋白质工程能够对蛋白质序列或结构进行修改和优化,以满足各种应用需求,是操纵生物系统的重要手段。
深度学习在蛋白质工程中的应用现状
深度学习方法在蛋白质工程任务中表现出高效性和良好性能,但之前的方法通常需要借助外部蛋白质编码器来赋予大语言模型(LLMs)蛋白质理解能力,未能充分利用蛋白质序列和自然语言之间的内在相似性,导致模型复杂性增加和性能不理想。
研究目的
开发无需外部蛋白质编码器的多模态大模型,以直接理解和处理蛋白质序列。
构建智能体框架,整合蛋白质工程领域的深度学习模型和工具,提供统一的对话式用户界面,提高蛋白质工程任务的执行效率和可用性。
研究贡献
**技术创新:**提出 TourSynbio-7B 模型,展示了 LLMs 能够学习理解蛋白质作为一种语言,优于 GPT-4 在 ProteinLMBench 基准测试中的表现。
功能拓展:开发 TourSynbio-Agent 框架,集成多种