PharmAgents: Building a Virtual Pharma with Large Language Model Agents
摘要
发现新型小分子药物仍然是一个重大的科学挑战,对于治疗疾病和促进人类健康具有深远的影响。传统的小分子治疗药物开发是一个高度复杂、资源密集且耗时的过程,需要跨学科合作。最近在人工智能(AI)领域的突破,特别是大型语言模型(LLMs)的兴起,为简化和加速这一过程提供了变革性的机会。本文介绍了PharmAgents,一个由基于LLM的多代理协作驱动的虚拟制药生态系统。PharmAgents通过集成可解释的、由LLM驱动的代理,配备专门的机器学习模型和计算工具,模拟从目标发现到临床前评估的完整药物发现流程。通过结构化的知识交流和自动化优化,PharmAgents识别潜在的治疗靶点,发现有希望的候选化合物,增强结合亲和力和关键分子属性,并进行毒性和合成可行性的计算机模拟分析。此外,该系统支持可解释性、代理交互和自我进化,使其能够基于先前的经验改进未来的药物设计。通过展示LLM驱动的多代理系统在药物发现中的潜力,这项工作建立了一个自主、可解释且可扩展的制药研究新范式,未来还将扩展到全面的药物生命周期管理。
核心速览
研究背景
- 研究问题
:这篇文章要解决的问题是如何利用大型语言模型(LLMs)和多智能体系统来加速药物发现过程。传统的药物发现过程复杂、资源密集且耗时,需要多学科合作。
- 研究难点
:该问题的研究难点包括:如何整合跨学科知识、自动化关键阶段、实现无缝协作以减少时间、成本和风险。此外,AI模型的透明度和可解释性也是一个关键挑战,特别是在早期自主AI驱动的药物发现阶段。
- 相关工作
:相关工作包括高通量筛选、计算建模、虚拟筛选、结构基分子生成、结合亲和力预测、毒性评估和合成路径设计等。尽管这些模型在加速药物发现的各个阶段表现出色,但它们通常独立运行,缺乏现实世界制药工作流程所需的无缝集成。
研究方法
这篇论文提出了PharmAgents,一个由基于LLMs的多智能体系统驱动的虚拟制药生态系统。具体来说,
-
目标发现模块:首先,用户输入疾病描述,模块识别并输出与疾病相关的潜在治疗靶点。该模块利用LLMs和外部数据库的知识,通过分析疾病、靶点和口袋结构来生成潜在的靶点结构。
-
潜在候选化合物识别模块:基于前一模块识别的靶点,该模块分析疾病背景、靶点信息和口袋结构,生成潜在的候选化合物。该模块使用LLMs和多种工具,如DecompDiff(结构基药物设计模型)和DrugCLIP(虚拟筛选模型)。
-
潜在候选化合物优化模块:使用前一模块生成的候选化合物,该模块优化分子以提高其结合亲和力和药物样属性。该模块采用多智能体架构,包括设计智能体、相互作用分析智能体和反思智能体,通过迭代过程优化分子。
-
临床前候选化合物评估模块:该模块评估设计的分子在代谢、毒性和合成可行性方面的表现,提供是否适合进一步实验验证的建议。该模块使用LLMs和深度学习模型,如MetaTrans(代谢修改模型)和UAlign(逆向合成分析模型)。
实验设计
为了评估PharmAgents的有效性,研究人员设计了多个实验:
- 目标发现模块测试
:使用四个不同的LLMs模型(GPT-4o、GPT-4o-mini、DeepSeek-V3和DeepSeek-R1),对每个疾病进行三个不同级别的输入测试。通过专家评估确认预测目标的合理性。
- 潜在候选化合物识别/优化模块测试
:将PharmAgents系统与多个最先进的结构基药物设计模型进行比较,使用Vina对接分数、SA分数、分子合理性比率(MRR)和QikProp属性通过率等指标进行评估。
- 临床前候选化合物评估模块测试
:设计了一个五类分类任务,匹配WHO急性毒性标准,测试模型在毒性预测和合成可行性分析方面的能力。
结果与分析
-
目标发现模块:不同LLMs模型生成的输出在配方上有所不同,但总体上相似。专家评估确认了预测目标的合理性,特别是对于研究初期疾病的预测。
-
潜在候选化合物识别/优化模块:PharmAgents系统在成功率方面接近3倍的改进,尤其在对接分数、分子合理性比率、SA分数和QikProp通过率等指标上表现优异。
-
临床前候选化合物评估模块:GPT-4o模型在毒性预测任务中表现最佳,具有较高的准确性和较低的毒性低估风险。在合成可行性分析中,GPT-4o-mini模型与SA分数的相关性最高,解释了SA分数的变异。
总体结论
这篇论文介绍了PharmAgents,一个利用LLMs和多智能体系统模拟整个药物发现流程的新范式。PharmAgents在目标发现、潜在候选化合物识别/优化以及临床前候选化合物评估阶段表现出色,提高了药物设计的效率和透明度。该系统还展示了自我进化能力,通过不断学习过去的经验来改进未来的药物设计。总体而言,PharmAgents为AI驱动的药物发现开辟了一个新的时代,使其更加高效、透明和智能化。
优点与创新
- 全面的药物发现流程模拟
:PharmAgents通过集成解释性的大语言模型(LLM)代理,模拟了从目标发现到临床前评估的完整药物发现流程。
- 多代理协作框架
:系统采用基于角色的协作策略,将复杂的药物发现流程分解为四个关键阶段:目标发现、候选化合物识别、候选化合物优化和临床前评估。
- 高度可解释性
:每个模块的决策和输出都伴随着由LLM生成的推理,确保了整个过程的透明性和可解释性。
- 自进化能力
:系统能够总结和学习过去的经验,以改进未来的输出,从而提高成功率。
- 高性能决策
:实验结果表明,PharmAgents在整个药物发现流程中实现了合理、透明和高性能的决策。
- 跨学科的集成
:系统集成了生物学、化学、药理学和数据科学的多学科知识,增强了药物发现的效率和可靠性。
- 自动化优化
:通过结构化的知识交换和自动优化,系统能够识别潜在的治疗靶点、发现有前景的先导化合物、增强结合亲和力和其他关键分子属性。
不足与反思
- 局限性
:尽管PharmAgents在多个方面表现出色,但其在处理复杂疾病和生物靶点时仍面临挑战。特别是对于早期阶段的自主AI驱动的药物发现,人类监督仍然是必不可少的,以确保模型决策的安全性和有效性。
- 下一步工作
:未来的工作将扩展PharmAgents框架的能力,探索将多代理系统集成到更广泛的药物开发流程中,包括临床试验、监管批准和上市后监测等阶段。
关键问题及回答
问题1:PharmAgents系统在目标发现模块中是如何利用LLMs和外部数据库进行疾病相关靶点识别的?
- 疾病描述输入
:用户输入疾病描述,系统首先由疾病专家确定相关病症并检索相关的药物靶点数据,包括UniProt ID。
- 结构分析
:结构专家根据UniProt ID从PDB数据库中检索相应的晶体结构信息,包括简要描述、相关论文摘要和共晶配体名称。共晶配体名称是关键的选择标准。
- 筛选策略
:采用三种筛选策略来提高筛选结果的准确性和鲁棒性:
- 分组筛选
:将PDB候选者分为每组100个,每组选择前10个候选者,最后合并所有组的前10名候选者并进行最终选择。
- 反向顺序一致性
:将筛选结果反转后再选择前10名候选者,取两次选择的交集。
- UniProt筛选
:确保每个UniProt ID最多选择3个PDB ID,以增强预测靶点的多样性。
- 研究报告
:所有推理轨迹提交给研究专家,专家根据最新的疾病理解生成报告,确认预测的靶点。
问题2:PharmAgents系统在潜在候选化合物识别/优化模块中如何利用LLMs和多种工具生成和优化分子?
- 生成代理
:主要使用LLMs生成分子,结合多种工具如DecompDiff(结构基药物设计模型)和DrugCLIP(虚拟筛选模型)。这些工具协助生成可能与目标蛋白相互作用的分子。
- 分析代理
:包括疾病分析代理、目标分析代理和口袋分析代理,分别利用LLMs和相关数据库分析分子应具有的属性、PDB信息以识别潜在候选化合物,以及目标蛋白口袋的结构特征。
- 分子生成方法
:除了基于LLM的生成方法外,还涉及基于先前分析的LLM生成新分子,模拟专家化学家基于疾病、目标和分子相互作用的设计过程。
- 选择过程
:生成的分子经过选择代理的评估,选择代理根据分子特性生成要求,从三个不同来源选择最终分子。
- 优化过程
:优化模块采用多智能体架构,包括设计代理、相互作用分析代理和反思代理,通过迭代过程优化分子,最终由选择代理评估并选择最佳候选分子。
问题3:PharmAgents系统在临床前候选化合物评估模块中如何进行毒性和合成可行性分析?
- 代谢和毒性评估代理
:主要目标是确保分子及其代谢产物对人类尽可能安全。使用MetaTrans模型进行代谢修饰,并将修饰后的分子输入LLMs进行进一步推理。毒性预测基于WHO急性毒性标准,采用五类分类任务。
- 毒性预测方法
:设计了两种毒性信息传递技术:一种是不使用相似分子信息的“无相似”方法,另一种是完全不使用参考数据的“无参考”方法。使用三种LLMs模型(GPT-4o、GPT-4o-mini和DeepSeek-R1)进行评估。
- 合成可行性评估代理
:评估分子的合成可行性,使用UAlign模型进行逆向合成分析。选择20个分子作为测试集,评估其合成信心评分与SA分数的相关性。
- 结果分析
:GPT-4o模型在毒性预测任务中表现最佳,具有较高的准确性和较低的毒性低估风险。在合成可行性分析中,GPT-4o-mini模型与SA分数的相关性最高,解释了SA分数的变异。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓