PharmAgents：利用大模型智能体构建虚拟制药公司 - 清华、北大、华南理工等_pharmagents: building a virtual pharma with large -CSDN博客

本文链接：https://blog.csdn.net/2401_85390073/article/details/147018524

PharmAgents: Building a Virtual Pharma with Large Language Model Agents

摘要

发现新型小分子药物仍然是一个重大的科学挑战，对于治疗疾病和促进人类健康具有深远的影响。传统的小分子治疗药物开发是一个高度复杂、资源密集且耗时的过程，需要跨学科合作。最近在人工智能（AI）领域的突破，特别是大型语言模型（LLMs）的兴起，为简化和加速这一过程提供了变革性的机会。本文介绍了PharmAgents，一个由基于LLM的多代理协作驱动的虚拟制药生态系统。PharmAgents通过集成可解释的、由LLM驱动的代理，配备专门的机器学习模型和计算工具，模拟从目标发现到临床前评估的完整药物发现流程。通过结构化的知识交流和自动化优化，PharmAgents识别潜在的治疗靶点，发现有希望的候选化合物，增强结合亲和力和关键分子属性，并进行毒性和合成可行性的计算机模拟分析。此外，该系统支持可解释性、代理交互和自我进化，使其能够基于先前的经验改进未来的药物设计。通过展示LLM驱动的多代理系统在药物发现中的潜力，这项工作建立了一个自主、可解释且可扩展的制药研究新范式，未来还将扩展到全面的药物生命周期管理。

核心速览

研究背景

研究问题
：这篇文章要解决的问题是如何利用大型语言模型（LLMs）和多智能体系统来加速药物发现过程。传统的药物发现过程复杂、资源密集且耗时，需要多学科合作。
研究难点
：该问题的研究难点包括：如何整合跨学科知识、自动化关键阶段、实现无缝协作以减少时间、成本和风险。此外，AI模型的透明度和可解释性也是一个关键挑战，特别是在早期自主AI驱动的药物发现阶段。
相关工作
：相关工作包括高通量筛选、计算建模、虚拟筛选、结构基分子生成、结合亲和力预测、毒性评估和合成路径设计等。尽管这些模型在加速药物发现的各个阶段表现出色，但它们通常独立运行，缺乏现实世界制药工作流程所需的无缝集成。

研究方法

这篇论文提出了PharmAgents，一个由基于LLMs的多智能体系统驱动的虚拟制药生态系统。具体来说，

目标发现模块：首先，用户输入疾病描述，模块识别并输出与疾病相关的潜在治疗靶点。该模块利用LLMs和外部数据库的知识，通过分析疾病、靶点和口袋结构来生成潜在的靶点结构。
潜在候选化合物识别模块：基于前一模块识别的靶点，该模块分析疾病背景、靶点信息和口袋结构，生成潜在的候选化合物。该模块使用LLMs和多种工具，如DecompDiff（结构基药物设计模型）和DrugCLIP（虚拟筛选模型）。
潜在候选化合物优化模块：使用前一模块生成的候选化合物，该模块优化分子以提高其结合亲和力和药物样属性。该模块采用多智能体架构，包括设计智能体、相互作用分析智能体和反思智能体，通过迭代过程优化分子。
临床前候选化合物评估模块：该模块评估设计的分子在代谢、毒性和合成可行性方面的表现，提供是否适合进一步实验验证的建议。该模块使用LLMs和深度学习模型，如MetaTrans（代谢修改模型）和UAlign（逆向合成分析模型）。

实验设计

为了评估PharmAgents的有效性，研究人员设计了多个实验：

目标发现模块测试
：使用四个不同的LLMs模型（GPT-4o、GPT-4o-mini、DeepSeek-V3和DeepSeek-R1），对每个疾病进行三个不同级别的输入测试。通过专家评估确认预测目标的合理性。
潜在候选化合物识别/优化模块测试
：将PharmAgents系统与多个最先进的结构基药物设计模型进行比较，使用Vina对接分数、SA分数、分子合理性比率（MRR）和QikProp属性通过率等指标进行评估。
临床前候选化合物评估模块测试
：设计了一个五类分类任务，匹配WHO急性毒性标准，测试模型在毒性预测和合成可行性分析方面的能力。

结果与分析

目标发现模块：不同LLMs模型生成的输出在配方上有所不同，但总体上相似。专家评估确认了预测目标的合理性，特别是对于研究初期疾病的预测。
潜在候选化合物识别/优化模块：PharmAgents系统在成功率方面接近3倍的改进，尤其在对接分数、分子合理性比率、SA分数和QikProp通过率等指标上表现优异。
临床前候选化合物评估模块：GPT-4o模型在毒性预测任务中表现最佳，具有较高的准确性和较低的毒性低估风险。在合成可行性分析中，GPT-4o-mini模型与SA分数的相关性最高，解释了SA分数的变异。

总体结论

这篇论文介绍了PharmAgents，一个利用LLMs和多智能体系统模拟整个药物发现流程的新范式。PharmAgents在目标发现、潜在候选化合物识别/优化以及临床前候选化合物评估阶段表现出色，提高了药物设计的效率和透明度。该系统还展示了自我进化能力，通过不断学习过去的经验来改进未来的药物设计。总体而言，PharmAgents为AI驱动的药物发现开辟了一个新的时代，使其更加高效、透明和智能化。

优点与创新

全面的药物发现流程模拟
：PharmAgents通过集成解释性的大语言模型（LLM）代理，模拟了从目标发现到临床前评估的完整药物发现流程。
多代理协作框架
：系统采用基于角色的协作策略，将复杂的药物发现流程分解为四个关键阶段：目标发现、候选化合物识别、候选化合物优化和临床前评估。
高度可解释性
：每个模块的决策和输出都伴随着由LLM生成的推理，确保了整个过程的透明性和可解释性。
自进化能力
：系统能够总结和学习过去的经验，以改进未来的输出，从而提高成功率。
高性能决策
：实验结果表明，PharmAgents在整个药物发现流程中实现了合理、透明和高性能的决策。
跨学科的集成
：系统集成了生物学、化学、药理学和数据科学的多学科知识，增强了药物发现的效率和可靠性。
自动化优化
：通过结构化的知识交换和自动优化，系统能够识别潜在的治疗靶点、发现有前景的先导化合物、增强结合亲和力和其他关键分子属性。

不足与反思

局限性
：尽管PharmAgents在多个方面表现出色，但其在处理复杂疾病和生物靶点时仍面临挑战。特别是对于早期阶段的自主AI驱动的药物发现，人类监督仍然是必不可少的，以确保模型决策的安全性和有效性。
下一步工作
：未来的工作将扩展PharmAgents框架的能力，探索将多代理系统集成到更广泛的药物开发流程中，包括临床试验、监管批准和上市后监测等阶段。

关键问题及回答

问题1：PharmAgents系统在目标发现模块中是如何利用LLMs和外部数据库进行疾病相关靶点识别的？

疾病描述输入
：用户输入疾病描述，系统首先由疾病专家确定相关病症并检索相关的药物靶点数据，包括UniProt ID。
结构分析
：结构专家根据UniProt ID从PDB数据库中检索相应的晶体结构信息，包括简要描述、相关论文摘要和共晶配体名称。共晶配体名称是关键的选择标准。
筛选策略
：采用三种筛选策略来提高筛选结果的准确性和鲁棒性：

分组筛选
：将PDB候选者分为每组100个，每组选择前10个候选者，最后合并所有组的前10名候选者并进行最终选择。
反向顺序一致性
：将筛选结果反转后再选择前10名候选者，取两次选择的交集。
UniProt筛选
：确保每个UniProt ID最多选择3个PDB ID，以增强预测靶点的多样性。

研究报告
：所有推理轨迹提交给研究专家，专家根据最新的疾病理解生成报告，确认预测的靶点。

问题2：PharmAgents系统在潜在候选化合物识别/优化模块中如何利用LLMs和多种工具生成和优化分子？

生成代理
：主要使用LLMs生成分子，结合多种工具如DecompDiff（结构基药物设计模型）和DrugCLIP（虚拟筛选模型）。这些工具协助生成可能与目标蛋白相互作用的分子。
分析代理
：包括疾病分析代理、目标分析代理和口袋分析代理，分别利用LLMs和相关数据库分析分子应具有的属性、PDB信息以识别潜在候选化合物，以及目标蛋白口袋的结构特征。
分子生成方法
：除了基于LLM的生成方法外，还涉及基于先前分析的LLM生成新分子，模拟专家化学家基于疾病、目标和分子相互作用的设计过程。
选择过程
：生成的分子经过选择代理的评估，选择代理根据分子特性生成要求，从三个不同来源选择最终分子。
优化过程
：优化模块采用多智能体架构，包括设计代理、相互作用分析代理和反思代理，通过迭代过程优化分子，最终由选择代理评估并选择最佳候选分子。

问题3：PharmAgents系统在临床前候选化合物评估模块中如何进行毒性和合成可行性分析？

代谢和毒性评估代理
：主要目标是确保分子及其代谢产物对人类尽可能安全。使用MetaTrans模型进行代谢修饰，并将修饰后的分子输入LLMs进行进一步推理。毒性预测基于WHO急性毒性标准，采用五类分类任务。
毒性预测方法
：设计了两种毒性信息传递技术：一种是不使用相似分子信息的“无相似”方法，另一种是完全不使用参考数据的“无参考”方法。使用三种LLMs模型（GPT-4o、GPT-4o-mini和DeepSeek-R1）进行评估。
合成可行性评估代理
：评估分子的合成可行性，使用UAlign模型进行逆向合成分析。选择20个分子作为测试集，评估其合成信心评分与SA分数的相关性。
结果分析
：GPT-4o模型在毒性预测任务中表现最佳，具有较高的准确性和较低的毒性低估风险。在合成可行性分析中，GPT-4o-mini模型与SA分数的相关性最高，解释了SA分数的变异。