哈佛医学院生物医学信息学系, 心血管科,医学部,布里格姆妇女医院,哈佛医学院,
麻省理工学院林肯实验室4Kempner研究自然和人工智能研究所,哈佛大学,
摘要:精准治疗需要生成个性化治疗建议的多模适应模型。我们引入了TXAGENT,一种利用多步推理和实时生物医学知识检索的AI智能体,跨越211种工具箱分析药物相互作用、禁忌症和患者特定治疗策略。TXAGENT评估药物在分子、药代动力学和临床水平的相互作用,基于患者合并症和同时服用药物的情况识别禁忌症,并根据个体患者特征(包括年龄、遗传因素和疾病进展)量身定制治疗策略。TXAGENT从多个生物医学来源检索和综合证据,评估药物与患者病情之间的相互作用,并通过迭代推理优化治疗建议。它根据任务目标选择工具,并执行结构化函数调用以解决需要临床推理和跨源验证的治疗任务。TOOLUNIVERSE整合了来自可信来源的211种工具,包括自1939年以来全部美国FDA批准的药物和来自Open Targets的经过验证的临床见解。TXAGENT在五个新基准测试中优于领先的LLMs、工具使用模型和推理智能体:DrugPC、BrandPC、GenericPC、TreatmentPC和DescriptionPC,涵盖3,168个药物推理任务和456个个性化治疗场景。在开放式药物推理任务中,它的准确率达到92.1%,超过GPT-4o高达25.8%,在结构化的多步推理中胜过DeepSeek-R1(671B)。TXAGENT能推广应用于药物名称变体和描述,保持品牌、通用和基于描述的药物参考之间的方差<0.01,超过现有的工具使用LLMs超过55%。通过整合多步推理、实时知识基础和工具辅助决策,TXAGENT确保治疗建议符合已有的临床指南和真实世界证据,降低不良事件的风险,改善治疗决策。
目录
1主要的内容
2结果
2.1TXAGENT:多步治疗推理与各种通用工具
2.2TXAGENT的能力
2.3TOOLUNIVERSE:通用的工具和机器学习模型
2.4TXAGENT-INSTRUCT数据集的治疗任务和推理轨迹
3TRACEGEN智能体生成一个治疗推理轨迹的数据集
3.1TXAGENT在多步推理中表现优于更大的LLMs
3.2TXAGENT在多步推理中优于工具使用的LLMs
3.3TXAGENT泛化各种药物名称变体和描述
3.4TXAGENT用于精准治疗推荐
3.5TXAGENT在TreatmentPC中表现优于LLMs和工具使用LLMs
3.6专门治疗的TXAGENT推理跟踪示例
3.7工具在TOOLUNIVERSE对TXAGENT的表现的影响
3.8TXAGENT中推理的关键作用
4讨论
鸣谢
1 主要的内容
精准疗法根据个体患者情况个性化治疗,以最大化疗效并最小化风险。开具适当药物需要评估多个因素,包括患者特定特征、合并症、药物相互作用、禁忌症、当前临床指南、药物作用机制以及疾病的基础生物学。大语言模型(LLMs)可以通过大规模预训练后在医学数据上进行微调来处理治疗任务。虽然LLMs生成流畅、上下文相关的回应,但它们缺乏对更新生物医学知识的实时访问,经常产生幻觉,并且无法可靠地推理多个临床变量。重新训练这些模型以融入新的医学见解在计算上昂贵并且不切实际,因为它们容易遗忘。此外,LLMs吸收大量开放网络数据,其中可能包含未经验证或蓄意误导的医学信息。工具增强型LLMs整合了外部知识检索机制,例如检索增强生成(RAG),以缓解这些问题。这些模型从外部来源检索药物和疾病信息,但无法执行治疗选择所需的多步推理。精准疗法可以受益于迭代推理,其中模型可以从经过验证的来源检索信息,评估相互作用,并动态地完善治疗计划。
我们介绍了TXAGENT,这是一个AI智能体[15–19],通过将多步推理与实时生物医学工具集成,提供基于证据的治疗建议。TXAGENT生成自然语言回复,同时提供透明的推理追踪,详细介绍其决策过程的每一步。它执行目标驱动的工具选择,调用外部数据库和专业机器学习(ML)模型以确保准确性。为了支持复杂的医学查询,TXAGENT利用TOOLUNIVERSE,这是一个整合了211个专家策划的工具的生物医学工具箱,涵盖了药物机制、相互作用、临床指南和疾病注释。这些工具整合了可信赖的来源,包括openFDA [20]、Open Targets [21]和Human Phenotype Ontology [22]。TXAGENT还采用了TOOLRAG模型,这是一个基于ML的检索系统,根据查询上下文动态选择来自TOOLUNIVERSE的最相关工具。
TXAGENT由以下内容组成:
(1) TOOLUNIVERSE,一个包含211个生物医学工具的多样化集合;
(2)专门针对多步推理和工具执行进行微调的LLM;
(3) TOOLRAG模型,一种自适应工具检索模型。为了构建与TXAGENT兼容的工具,我们引入了TOOLGEN,一个从API文档中生成工具的多智能体工具构建系统。
TXAGENT经过TXAGENT-INSTRUCT微调,这是一个包含378,027个指令微调样本的数据集,来源于85,340个多步推理轨迹,涵盖了177,626个推理步骤和281,695个函数调用。该数据集是使用QUESTIONGEN和TRACEGEN生成的,这是构建多样化治疗查询并生成自1939年以来FDA标签中涵盖治疗和药物信息的逐步推理轨迹的多智能体系统。
我们介绍了五个新的基准测试(DrugPC,BrandPC,GenericPC,DescriptionPC,TreatmentPC,见表1)。这些基准全面评估了跨结构化和非结构化查询的药物选择、治疗个性化和推理鲁棒性。在所有五个基准测试中,TXAGENT的表现优于更大的LLM和现有的工具使用模型,并实现了在开放式药物推理和基于患者的治疗决策上的最新性能。在评估11个常见药物推理任务的DrugPC基准测试中,TXAGENT在开放式设置下达到了92.1%的准确率,其中模型在没有预定义选择的情况下生成答案。这一表现超过了GPT-4o [23],最强的封闭加权参考模型,超过了25.8%(GPT-4o:66.3%),并且在比Llama-3.1-70B-Instruct [2]大近9倍的模型上,超过了39.3%(Llama-3.1-70B-Instruct:52.8%)。基于经过微调的80亿参数Llama-3.1-8B-Instruct模型[2]的TXAGENT,提供了卓越的准确性,同时保持了计算效率。与具有函数调用功能的工具使用LLM(如ToolACE和WattTool[12,13])相比,在开放式药物推理任务中,TXAGENT显著优于这两种模型。与现有的工具增强的LLM不同,后者在多步工具选择和迭代推理方面存在困难,TXAGENT动态检索并综合来自211个生物医学工具的知识,实现更准确和具有上下文感知的治疗决策。
除了药物推理,TXAGENT还能泛化到各种药物名称变体和描述,克服了基于LLM方法的一个关键局限性[24,25]。许多模型在涉及品牌名称、通用名称或详细描述时表现出高方差[24]。相比之下,TXAGENT在这些变化之间取得了异常低的精度方差<0.01,而GPT-4o的方差为9.96,表明其对表示转移具有更高的敏感性。在DescriptionPC上,一种评估替换药物名称为描述性叙述时的药物推理的基准中,TXAGENT取得了56.5%的准确度,比GPT-4o高出8.3%,表明TXAGENT能够从上下文线索中推断出药物身份。TXAGENT在个性化治疗建议方面也表现出色,评估特定患者的药物选择。在TreatmentPC上,该基准评估了456个真实治疗场景,TXAGENT在开放式环境中的表现比GPT-4o高出13.6%,比Llama-3.1-70B-Instruct高出25.4%,凸显了其在个性化医学中的优越性。与为多步推理优化的6710亿参数模型DeepSeek-R1相比,TXAGENT在开放式查询中的准确率提高了7.5%,表明专门的推理和工具使用能力胜过模型规模。
进行消融研究以评估TXAGENT的工具箱大小、工具依赖性和推理过程。增加TOOLUNIVERSE中的工具数量改善了性能,表明可以访问外部生物医学工具有助于改善治疗推理。我们将真实世界的工具使用与充当工具替代物的LLM进行比较,发现辅助决策的工具始终优于仅使用LLM进行推理,突显了AI智能体需要基于不断更新和验证的治疗知识。我们还研究了在调用函数之前明确推理步骤的影响,并表明结构化推理比仅多轮函数调用能够更好地提高性能。最后,我们分析了多步训练跟踪的影响,并发现增加在微调和推断中的推理步骤数量显著提高了TXAGENT处理复杂药物推理和治疗选择的能力。
2 结果
2.1 TXAGENT:多步治疗推理与各种通用工具
TXAGENT使用多步骤、白盒推理和工具使用来解决精准治疗问题(如图1a所示)。利用连接到经过验证的知识库的各种工具,例如FDA批准的药物标签和Open Targets [20, 21],以及用于特殊目的的机器学习工具,如工具检索(如图1b所示),TXAGENT对药物、疾病和患者群体进行详细推理。利用广泛的生物医学工具来确保TXAGENT不受LLMs的内部知识的限制,使其能够生成具有透明推理迹象的准确可靠的答案。它可以处理各种患者场景,从特定的患者群体和复杂的病史到多药治疗和个体特定的基因变异。TXAGENT使用TOOLUNIVERSE,这是一个通用工具箱,有211个工具,支持从经过验证的数据源实时检索知识,包括openFDA [20],Open Targets [21]以及Monarch Initiative的Human Phenotype Ontology。这些工具涉及药物和疾病的各个方面,如药物适应症和用法(如图1c所示)。
TXAGENT是受过工具训练的LLM。这是通过构建三个训练数据集(一个工具数据集、一个综合治疗问题数据集和一个推理跟踪数据集)来实现的,我们使用三个辅助智能体系统创建这些数据集(图2a)。鉴于这些数据集,我们对LLM [2]进行指令调整以实现多种功能,包括多步推理和工具调用参数生成。对于多步推理过程中的每一步,TXAGENT都会收到治疗问题或上一轮的工具反馈。基于此输入,TXAGENT生成基于语言的思维过程并调用对工具的调用。在推理过程中,为了识别和利用相关工具,TXAGENT调用TOOLRAG模型,该模型根据TXAGENT提供的描述从TOOLUNIVERSE中选择合适的候选者。此迭代过程将一直持续,直到TXAGENT得出最终答案并调用
完成工具用于结束推理过程。TXAGENT的输出包括最终答案和多步推理过程。推理过程的每一步都包括思维过程、调用工具函数以利用工具以及来自这些工具的反馈。我们在在线方法第1.2节和算法1中展示了TXAGENT的详细推理过程。
2.2 TXAGENT的能力
TXAGENT生成推理跟踪,构建函数调用参数,执行多步逻辑推理,并搜索、选择和调用工具来解决治疗推理任务。这些能力是通过对LLM进行指导调整而开发的(在线方法部分1.2)。通过应用这些能力,TXAGENT通过工具调用检索经过验证的生物医学知识,根据具体目标选择工具,通过多步推理解决问题,并集成持续更新的知识库。
使用工具调用进行知识基础。治疗决策需要可靠的答案和透明的理由。LLMs缺乏验证其预测的内在机制,需要用户手动评估可信度。TXAGENT通过调用功能从可信的来源检索经过验证的信息来解决这个问题。TXAGENT不直接生成响应,而是查询工具以获取准确数据,并根据经过验证的输出制定答案。在图1f中,TXAGENT确定了2024年FDA批准的Kisunla(donanemab-azbt)的剂量,这超出了其基础LLMs的训练数据。TXAGENT意识到知识空白,调用获取剂量,并从FDA记录中检索剂量详细信息。然后将检索到的信息综合成一个响应。这种方法确保了事实的准确性和透明度,使用户可以通过推理轨迹验证响应。
目标导向的工具选择。TXAGENT使用TOOLRAG模型来搜索、识别和应用最相关的工具。图1g显示TXAGENT检索Alyftrek(vanzacaftor,tezacaftor,deutivacaftor)的不良反应。它认识到需要外部数据,生成功能-从返回的工具中,TXAGENT选择获取不良反应,从FDA药品标签中提取相关信息。这个过程使TXAGENT能够动态整合新工具,而不是依赖于静态的、预先训练的知识。通过首先生成一个计划,然后选择适当的工具,TXAGENT支持自适应决策制定。
多步治疗推理。TXAGENT应用多步推理来解决需要整合多个信息源或适应不完整数据的复杂问题。 当问题需要来自多个角度的信息或函数调用返回不足的结果时,单步方法会失败。 通过迭代生成推理步骤和函数调用,TXAGENT在分析中不断完善,直到达到有充分支持的答案。 在图1h中,TXAGENT为乳腺癌识别蛋白靶标,这是没有一个TOOLUNIVERSE工具可以完成的任务。 因此,TXAGENT首先使用get disease id desc检索疾病的EFO ID,然后查询TOOLUNIVERSE以了解将疾病映射到蛋白靶标的工具。 从返回的选项中,TXAGENT选择get associated targets并通过分数对检索到的蛋白质进行排名。 这种迭代过程确保在直接检索不足的情况下进行健壮的推理。
实时从持续更新的知识来源检索。LLMs仅保留训练时的可用知识,无法动态更新。重新训练模型以整合新的生物医学信息在计算上是昂贵且不切实际的。检索增强生成[27]通过查询预先计算的向量数据库来缓解这一问题,但为了频繁更新而保持高质量的嵌入是耗费资源的。TXAGENT通过执行函数调用直接查询实时数据来源,如Open Targets和FDA数据库,来解决这一限制。这种方法使TXAGENT能够检索当前的药物批准、临床指南和治疗适应症,而无需进行模型重新训练。不同于需要定期重新处理的静态向量数据库,TXAGENT不断整合来自多个可验证来源的新信息。图1i展示了这种能力。Bizengri(zenocutuzumabzbco)于2024年12月获得FDA批准,位于TXAGENT基础模型Llama3.1-8B(2023年12月)的知识截止日期之后。TXAGENT不依赖过时的内部知识,而是调用获取适应症工具来查询openFDA API,获取最新的药物标签信息。这使TXAGENT能够正确识别Bizengri在非小细胞肺癌和胰腺腺癌治疗中的批准适应症。通过不断整合更新的来源,TXAGENT确保可以访问最新的生物医学知识,消除对静态训练数据的依赖,并减轻知识过时问题。
2.3 TOOLUNIVERSE:通用的工具和机器学习模型
TOOLUNIVERSE是一个包含211个生物医学工具的套件,与TXAGENT集成。它涵盖了广泛的类别(图1c),包括不良事件、风险和安全性;成瘾和滥用;特定人群的药物使用;药物管理和处理;药理学;药物机制和成分;标识和标签工具;一般临床注释;临床实验室信息;患者和护理资源;疾病、表型、靶点和药物关联;生物学注释工具;出版信息;搜索工具;以及靶点表征。TOOLUNIVERSE中的工具基于可信来源的API构建,包括openFDA [20]、Open Targets [21]和Monarch Initiative [22]。扩展数据图3提供了TOOLUNIVERSE工具的详细分类。
TOOLGEN智能体生成了一个用于创建TOOLUNIVERSE的工具规范数据集。TOOLGEN系统采用多智能体方法在TOOLUNIVERSE中构建工具,将API文档转换为结构化的工具规范(Extended Data Figure 2a)。API文档在格式和内容上差异很大,直接与TXAGENT集成具有挑战性。TOOLGEN通过将API函数组织成定义明确的工具,并提供清晰简洁的描述,从而使这一过程标准化,使TXAGENT能够解释。该系统分为四个阶段:
1.能力总结:SUMMARIZER智能体提取并概括API文档,以识别API的核心功能。
2.工具生成:TOOL GENERATOR智能体将这些功能转化为结构化的工具规范。每个工具规范包括TXAGENT的函数调用描述和将函数调用转换为API请求的映射规则。工具描述定义了工具的名称、目的、输入参数、数据类型和必需参数(示例见图1b和扩展数据图1)。
3.工具验证:TOOL CHECKER智能体生成带有预定义查询和函数调用的测试用例,以验证工具的功能性。
4.人工验证:专家们手动审核和优化工具,以确保正确性、有意义的应用和对意外输入的稳健性。
总结器、工具生成器和工具检查器智能体通过提示操作
LLM与专业说明。在线方法部分2.2提供了关于TOOLGEN系统的额外细节。
2.4 TXAGENT-INSTRUCT数据集的治疗任务和推理轨迹
我们构建了TXAGENT-INSTRUCT,一个多步推理和函数调用训练数据集(图2d)。TXAGENT-INSTRUCT包括三个数据集:一个工具数据集,一个治疗问题数据集和一个推理跟踪数据集,由三个Agent系统生成(扩展数据图2)。工具数据集包含来自TOOLUNIVERSE的211个工具的增强版本。每个工具描述都经过改写以引入变化,确保TXAGENT学习工具使用而不是记忆特定描述。治疗问题数据集包括85,340个问题和功能指令,由QUESTIONGEN Agent系统生成,用于训练TXAGENT的推理能力。推理跟踪数据集包括85,340个详细的推理跟踪,其中包含177,626个推理步骤和281,695个函数调用,均由TRACEGEN Agent系统生成。处理这三个数据集(详见在线方法第4.1节)得到TXAGENT-INSTRUCT,其中包括378,027个指令调整样本。Agent系统通过从经过验证的生物医学来源中对药物和疾病信息进行抽样来生成训练数据。药物数据来自FDA药物标签文档[20],而疾病信息来自PrimeKG[28]。药物-疾病、表型和靶标关联来源于Open Targets[21]。
QUESTIONGEN智能体会生成治疗问题的数据集。QUESTIONGEN使用治疗、疾病和药物相关信息构建治疗问题。训练TXAGENT需要一个庞大的问题数据集,这些问题涉及各种形式的治疗推理,包括患者群体、药物副作用和药物相互作用。手动生成这些问题是不可行的。相反,QUESTIONGEN是一个多智能体系统,它从经过验证的知识库中生成有意义的问题(在线方法第3.2节,扩展数据图2b)。QUESTIONGEN分三个阶段运行。首先,INFORMATION EXTRACTOR智能体从生物医学文档和数据源中识别并提取关键信息。接下来,QUESTION GENERATOR智能体使用提取的信息构建问题,并生成相应的答案,并附有详细说明,以阐明答案如何解决问题。最后,QUESTIONGEN根据知识基础、可解决性和合理性评估每个问题。只有经过验证的问题才会进入TRACEGEN系统进行推理跟踪生成。
3 TRACEGEN智能体生成一个治疗推理轨迹的数据集
为了生成能够整合来自现实世界工具反馈的有效推理轨迹,我们设计了TRACEGEN,这是一个构建复杂、逐步推理轨迹的多智能体系统(扩展数据图表2c)。TRACEGEN为每个问题生成训练数据,包括一个推理轨迹和最终答案。生成推理轨迹面临几个挑战:(1)问题的复杂性:许多问题需要多步推理和分析多个因素,这使得生成一个直接答案变得困难。TRACEGEN必须生成能够有效处理这种复杂性的推理轨迹。(2)整合外部工具:有效的推理需要将现实世界工具纳入考虑,而不仅仅依赖于LLM的内部知识。TRACEGEN必须将工具输出整合到推理轨迹中,同时确保各个来源之间的一致性。(3)处理不可预测的工具输出:外部工具通常会产生意想不到的结果。TRACEGEN必须处理失败案例,过滤嘈杂的输出,并确保尽管工具响应存在差异,推理依然朝着有效解决方案的方向发展。TRACEGEN通过由HELPER智能体、TOOL PROVIDER模块、SOLVER智能体和推理轨迹评估步骤组成的多智能体系统来应对这些挑战(扩展数据图表2c)。
1.HELPER智能体为SOLVER提供逐步提示,根据先前步骤指导推理过程。它可以访问正确答案和解释,确保与预期结果一致。
2.工具提供者模块根据问题和TOOLRAG模型的推荐确定相关工具,通过从先前生成的数据中学习,逐步提高工具选择准确性。
3.SOLVER智能体整合来自TOOL PROVIDER、HELPER和现有推理路径的信息,迭代生成推理步骤和函数调用,直到达到最终答案。
评估步骤验证了答案的正确性,函数调用和推理过程,同时检测幻觉、任意输出和重复推理模式。
TRACEGEN的详细信息在在线方法第3.3节中提供
3.1 TXAGENT在多步推理中表现优于更大的LLMs
我们构建了DrugPC(药品处方卡)基准来评估TXAGENT在药物推理方面的表现。DrugPC包括3,168个问题,涵盖了11个任务:药物概述、成分、警告和安全性、依赖和滥用、剂量和给药途径、特定人群的使用、药理学、临床信息、非临床毒理学、以患者为中心的信息以及贮藏和供应。为减少自预训练数据泄漏,我们关注的是2024年FDA批准的药物,降低了LLMs可能已经遇到这些药物的可能性。我们将2023年之后批准的药物排除在训练集之外,并使用2024年批准的药物进行评估。我们对LLMs进行指令微调,例如Llama-3.1-8B-Instruct模型。
80亿个参数,使用TXAGENT-INSTRUCT开发TXAGENT的推理和工具使用能力。在线方法第4.3节中提供了训练详细信息。我们在两种设置中评估模型:多项选择,其中模型从给定的选项中选择正确答案,以及开放式,其中模型在没有预定义选择的情况下生成响应。默认情况下,QUESTIONGEN生成具有4-5个选项的问题,并由人工专家验证。要创建开放式版本,我们从输入中删除答案选项。生成响应后,模型会根据其生成的文本从原始选项中选择正确的选项。表3提供了两种格式的示例。有关基准数据集和评估的更多详细信息,请参见在线方法第5节。
TXAGENT基于Llama-3.1-8B-Instruct模型构建,该模型拥有80亿个参数,并针对多步推理和函数调用执行进行了微调。我们将TXAGENT与更大的模型进行了比较,包括Llama3.1-70B-Instruct(700亿参数)和GPT-4o(图1d)。尽管尺寸较小,但TXAGENT在多选和开放式任务中始终优于Llama3.1-70B-Instruct。在多选设置下,TXAGENT的准确率达到93.8%,超过Llama3.1-70B-Instruct的75.1%。在开放式设置下,TXAGENT保持92.1%的准确率,而Llama3.1-70B-Instruct下降至52.8%。在基线模型中,GPT-4o表现最佳,多选准确率为76.4%,开放式任务为66.3%。然而,在多选和开放式设置下,TXAGENT分别比GPT-4o高出17.4%和25.8%。通过利用多步推理并执行对TOOLUNIVERSE的函数调用来获取验证信息,TXAGENT在准确性和可靠性上超越了更大的模型。开放式设置比多选格式更具挑战性,因为模型不能依赖答案选项。当转换为开放式任务时,GPT-4o和Llama3.1-70B-Instruct的准确率分别下降了10.1%和22.3%。相比之下,TXAGENT仅出现了1.7%的下降,突显了其在开放式推理中的稳健性。
评估在DrugPC基准测试中的所有11个任务的性能(图2b,c)。尽管GPT-4o在整体上是最强的基线模型,但并不总是胜过其他模型。例如,在警告和安全任务上,Llama3.1-70B-Instruct的准确率高于GPT-4o。相比之下,TXAGENT在所有任务中超越所有基线模型,展示了其在多任务药物推理中的有效性。TXAGENT提供由经过验证的函数调用结果支持的推理跟踪,使用户能够评估响应的可靠性。相比之下,LLM生成的输出需要手动验证,缺乏外部验证会限制信任。
3.2 TXAGENT在多步推理中优于工具使用的LLMs
我们将TXAGENT与支持函数调用[11–13]的工具用LLM进行了比较(图1e)。现有模型侧重于根据输入问题和工具描述生成准确的函数调用,但缺乏处理需要多步骤函数调用、推理和各种工具集成的复杂问题的能力。通过整合多步骤推理和函数调用功能,TXAGENT提供了与现有工具使用LLM相比的关键优势:(1) 扩展的工具支持:TXAGENT采用面向目标的工具选择,可以访问TOOLUNIVERSE中的大量工具。相比之下,现有方法依赖于在上下文窗口中包含所有工具描述,从而限制了它们可以处理的工具数量。一些工具使用的LLM [29]无法支持像TOOLUNIVERSE这样的大型工具箱。(2) 改进问题解决能力:TXAGENT执行多轮函数调用以解决复杂问题。当单个函数调用未提供足够的信息时,TXAGENT会重新评估并选择替代工具来优化其解决方案。
我们将TXAGENT与最先进的工具使用LLMs进行比较,包括ToolACE-8B [13]和WattTool-8B [12],它们都是在与TXAGENT相同的Llama-3.1-8B-Instruct模型上进行了微调。为了确保公平比较,我们为所有模型提供对TOOLUNIVERSE的完全访问权限,并启用多步推理。由于现有的工具使用LLMs不原生支持多步推理,但允许多轮交互,我们通过将工具结果返回作为用户消息来模拟多步推理,允许LLM继续调用功能,直到达到最终答案。此外,由于大多数工具使用LLMs在功能调用和答案生成之间切换时存在困难,我们引入了一个特殊的GIVEANSWER工具。这个工具要求模型在问题解决完成后用最终答案调用它,确保结构化的响应过程。
TXAGENT的准确性显著高于现有的工具使用LLM。在多选题设置中,TXAGENT的表现优于ToolACE 62.5%,优于WattTool的59.1%。在开放式设置中,TXAGENT比ToolACE高出59.4%,比WattTool高出55.0%。这种性能差距源于现有工具使用的LLM中存在的关键限制:(1)工具选择有限:这些模型难以处理单个上下文窗口中的许多工具,通常无法从TOOLUNIVERSE中的数百种工具中选择正确的工具。(2)单轮函数调用:它们仅基于输入问题填写函数参数,而无需进行额外调用以检索缺失信息。(3)无效的多步推理:由于缺乏自适应推理,它们经常重复初始函数调用,而不是根据先前的结果调整方法,导致在达到最大推理轮限制时失败。
我们通过跟踪无效答案来量化这些失败情况,即模型无法生成有效回应的情况。WattTool-8B在58.9%的多选题和56.6%的开放式问题上失败。ToolACE-8B分别在63.1%和60.7%的多选题和开放式问题上失败。相比之下,TXAGENT采用多步推理、迭代函数调用和目标导向的工具选择,使其能够在治疗推理中充分利用TOOLUNIVERSE。
3.3 TXAGENT泛化各种药物名称变体和描述
我们评估TXAGENT在不同药物表示之间的泛化能力。基于LLM的模型对药物引用方式的变化很敏感[24],如品牌与通用名称。为了测试泛化能力,我们构建了DrugPC基准的三个修改版本:BrandPC,GenericPC和DescriptionPC。BrandPC和GenericPC分别用其品牌或通用等效物替换DrugPC中的药物名称。不涉及药物名称的问题保持不变,而需要在品牌和通用名称之间转换的问题进行相应修改。这两个数据集与DrugPC保持相同数量的样本。示例问题见图3a。
DescriptionPC用详细描述替换药物名,以评估在没有明确药物名的情况下的泛化能力,包括适应症、作用机制、禁忌症和相互作用。我们移除了在此转换后变得无法回答的DrugPC问题,共计626个问题。由于多种药物可能共享相似的描述,DescriptionPC引入了一个两步评估过程:(1)药物识别和(2)答案正确性(图3b)。在第一步中,模型根据其描述识别药物。真实情况包括所有可能匹配给定描述的药物。在第二步中,模型使用其预测的药物名称选择多项选择题的正确答案。如果药物识别错误,则答案会被自动标记为错误,确保预测依赖于准确的药物识别。
TXAGENT在BrandPC上取得了93.6%的准确率,在GenericPC上取得了93.7%的准确率,在两个基准测试中都优于纯LLMs和工具使用LLMs(见图3a)。在纯LLMs中,Llama3.1-70B-Instruct在BrandPC上表现最佳(73.0%),而GPT-4o在GenericPC上领先(77.3%)。TXAGENT分别比这两个顶级参考模型提高了20.6%和16.4%。
在工具使用的LLMs中,WattTool-8B在BrandPC上达到最高准确率,分别为40.2%和在GenericPC上为31.5%。TXAGENT分别比这些基线模型提高了53.4%和62.2%。TXAGENT在原始数据集、BrandPC和GenericPC数据集上的性能方差更低,方差为0.00667。相比之下,GPT-4o的方差为9.96,Llama3.1-70BInstruct为2.42,WattTool-8B为13.07,ToolACE-8B为1.05。这些结果表明了TXAGENT在不同药品名称表示法之间具有出色的鲁棒性和泛化能力。
在DescriptionPC基准测试中(图3b),当仅评估答案正确性(而不考虑模型是否识别出正确的药物)时,TXAGENT取得了90.4%的准确率,超过了GPT-4o(85.9%)和Llama3.1-70B-Instruct(85.3%)。然而,模型可能会在不首先识别所参考药物类别的情况下“猜测”DescriptionPC中某些问题的答案,从而限制了模型的可信度。具体地,在要求正确药物识别和答案选择两者时,Llama3.1-70BInstruct的准确率急剧下降至20.1%,表明了药物关联的不可靠性。相比之下,TXAGENT保持了最高的56.5%的性能,比GPT-4o高出了8.3%。仅在药物名称识别方面,TXAGENT以60.1%的最高准确率表现,而GPT-4o为55.8%,Llama3.170B-Instruct为23.6%。这些结果突显了TXAGENT在药物推理和基于正确信息做出决策方面的更强能力。
3.4 TXAGENT用于精准治疗推荐
我们评估了TXAGENT在使用TreatmentPC基准测试时提供个性化治疗建议的能力,该基准测试包含456个专注于特定治疗情景的问题。尽管多种药物可能用于治疗同一疾病,但患者特定因素(如怀孕或合并症)需要定制的药物选择和剂量调整。TreatmentPC通过制定考虑各种药物应用条件的问题来评估这些情况。我们选择了2024年FDA批准的药物,确定它们指示的疾病,并通过比较药物属性来分析治疗方案。例如,在所有可用治疗方案中,只有一种药物适合孕妇。这种分析基于FDA的文件,包括适应症、特定人群的用药、安全警示、注意事项和禁忌症。
利用这些药物特性,我们生成了包含4-5个选项的多项选择题,确保仅有一个正确答案,基于患者的病情。问题还包括需要考虑药物相互作用的场景,要求模型考虑禁忌症。我们在多项选择和开放式设置下评估模型。在多项选择格式中,模型从给定选项中选择最合适的药物。在开放式格式中,模型生成治疗建议,并从自己的回答中选择正确答案。TreatmentPC评估了TXAGENT分析患者状况并推荐适当治疗的能力。有关基准数据集和评估方法的详细信息请参阅在线方法第5部分。
3.5 TXAGENT在TreatmentPC中表现优于LLMs和工具使用LLMs
TXAGENT的准确率明显高于其微调基础模型Llama-3.1-8B-Instruct(见图4a)。在多项选择设置中,TXAGENT达到了86.8%的准确率,超过了Llama-3.1-8B-Instruct的56.1%。在开放式设置中,TXAGENT取得了75.0%的准确率,优于Llama-3.18B-Instruct的33.11%。与更大的LLMs相比,TXAGENT保持卓越的性能。在多项选择设置中,它比GPT-4o高出12.7%,比Llama-3.1-70B-Instruct高出16.4%。在开放式设置中,TXAGENT比GPT-4o高出13.6%,比Llama-3.1-70B-Instruct高出25.4%。即使在开放式设置中,TXAGENT(75.0%)也超过了GPT-4o的多项选择准确率(74.1%),尽管后者受益于预定义的答案选择。
TXAGENT在工具使用LLMs方面表现更好(见图4b)。ToolACE-8B和WattTool-8B,在相同的Llama-3.1-8B-Instruct模型上进行微调,并可以完全访问TOOLUNIVERSE,但表现明显更差。在多项选择设置中,WattTool-8B仅达到18.2%,而TXAGENT达到86.8%。在开放式设置下,ToolACE-8B得分为13.4%,而TXAGENT为75.0%。正如在DrugPC中观察到的那样,TXAGENT的优势来自于其多步推理能力。它整合来自多个来源的信息,执行迭代函数调用,在初始工具调用返回空结果时对查询进行调整,并动态调整其方法。这些优势使TXAGENT比现有的工具使用LLMs更有效地解决复杂的治疗建议任务。
TXAGENT表现优于DeepSeek-R1等推理LLMs。最近的推理LLMs,例如DeepSeek-R1和GPT-o1,旨在进行长篇思维推理和测试时间扩展。由于TreatmentPC需要对患者状况和药物效果进行多步推理,因此我们将TXAGENT与DeepSeek-R1模型进行比较。为了实现DeepSeek-R1中的多步推理,我们明确提示它使用特殊标记<思考>和<\思考>生成推理步骤。尽管DeepSeek-R1的完整模型具有6710亿个参数,但TXAGENT在多项选择设置中表现优异(86.8%对76.5%),在开放式设置中表现优异7.5%。扩展数据图5显示了Deepseek-R1和TxAgent之间的比较。Deepseek-R1依赖内部知识进行推理,存在幻觉和判断失误的风险。相反,TxAgent基于FDA药物标签等可靠来源进行推理,最大限度地减少幻觉风险,确保更可靠的结论。
TXAGENT也超越了DeepSeek-R1-Llama-8B/70B等经过提炼的变种,这些变种是在Llama-3.1-8B和Llama-3.1-70B上训练的。与DeepSeek-R1-Llama-8B相比,该模型与TXAGENT共享相同的基础模型,TXAGENT在多选题中的准确率提高了36.1%,在开放式任务中提高了34.9%。与仅依赖内部知识的推理LLM不同,TXAGENT将多步推理与来自TOOLUNIVERSE的验证外部信息整合在一起,使其在专业化治疗推荐任务中更加有效。
3.6 专门治疗的TXAGENT推理跟踪示例
我们提供了四个个性化治疗问题的详细TXAGENT推理过程,评估其在特定患者群,包括老年患者和儿科患者中,整合药物机制、药物相互作用、合并症和临床指南的能力。
1.基于药物机制和儿科使用的治疗选择。图4d展示了一名患有杜兴氏肌萎缩症(DMD)的小男孩患者寻求治疗的案例。患者不愿意接受基于类固醇的治疗,因为会出现副作用,包括体重增加和情绪变化,同时也不适合接受剪接外显子反义寡核苷酸治疗,这种治疗只对特定的遗传突变有效。TXAGENT必须确定一个适当的非类固醇,非剪接外显子治疗方案。TXAGENT首先调用TOOLRAG模型找到根据适应症识别药物的工具。它选择通过适应症获取药物名称并检索十种DMD药物。分析结果后,TXAGENT确定Duvyzat是唯一符合患者标准的药物。为了评估儿科适用性,TXAGENT调用通过儿科使用获取药物名称,但该工具没有返回相关信息。随后,TXAGENT再次查询TOOLRAG模型以获得与儿科指南相关的工具,并选择通过药物名称获取儿科使用,确认Duvyzat对六岁以上儿童安全。基于这一推理,TXAGENT自信地为这位患者推荐Duvyzat。这个案例研究突出了TXAGENT在尽管症状相似的情况下区分药物机制的能力,以及将机械性考虑与儿科安全等个性化因素结合起来的能力。
2.考虑药物相互作用的治疗选择。图4e检查了涉及药物相互作用的治疗决策。患者目前正在服用百忧解(盐酸氟西汀)治疗重度抑郁症,并正在考虑添加Xolremdi(mavorixafor) 治疗WHIM综合征。TXAGENT评估这些药物是否可以一起服用。德克萨斯州-
AGENT首先查询TOOLRAG模型,了解与药物适应症和禁忌症相关的工具。同时调用Xolremdi的获取适应症和获取禁忌症。检索到的数据确认Xolremdi适用于WHIM综合征,但与依赖于CYP2D6清除的药物禁忌。Xolremdi抑制CYP2D6,降低其酶活性,并延长由CYP2D6代谢的药物在体内的存在。
确定这一禁忌是否适用于百忧解,TXAGENT调用药物相互作用,发现百忧解既是CYP2D6的底物又是抑制剂。这产生了两种潜在的药物相互作用:(1)直接禁忌:百忧解经CYP2D6代谢,而因为氯雷米抑制这一酶,百忧解的暴露量将增加,可能导致不良反应。 (2)叠加抑制:百忧解和氯雷米均减少CYP2D6活性。它们的联合效应可能进一步影响CYP2D6的代谢,增加与CYP2D6代谢的其他药物的暴露量。基于这些相互作用,TXAGENT得出结论,患者服用百忧解和氯雷米并不适宜。此案例突显了TXAGENT通过多步推理和从TOOLUNIVERSE获取的详细生物学见解来分析药物相互作用的能力。
3.考虑老年人使用的治疗选择。图4f探讨了TXAGENT考虑老年特定治疗调整的能力。一名患有精神分裂症的70岁患者寻求Cobenfy(氧麻郎和曲斯邦克氯化物)的最大推荐剂量,这是一种最近批准的药物。由于剂量可根据患者反应进行调整,TXAGENT必须确定适当的上限并提供理由。TXAGENT首先调用TOOLRAG模型从TOOLUNIVERSE检索相关的剂量和年龄相关工具。然后选择和执行获取剂量和存储信息以及获取老年人使用信息。剂量工具确认老年患者的最大推荐剂量为100毫克/20毫克,每日两次,低于建议年轻患者每日两次125毫克/30毫克。老年人使用工具解释了这种调整是由于老年患者尿潴留风险增加。TXAGENT综合这些发现并提供支持证据的最终答案。这个案例研究突出了TXAGENT同时进行平行推理线索的能力——通过同时执行多个工具调用来识别和解释最大剂量。它还展示了TXAGENT如何整合验证的外部信息,提供基于证据的特定患者的治疗建议。
4考虑合发症的治疗选择。图4g展示了TXAGENT将合并症纳入治疗建议的能力。患者患有两种心脏病:二度房室传导阻滞(破坏心脏中的电信号传导)和高血压。TXAGENT的任务是在考虑AV阻滞时确定合适的高血压治疗。TXAGENT首先使用TOOLRAG模型检索与适应症相关的工具。它调用按适应症获取药物名称,以确定十种可能的高血压治疗方法。接下来,它根据AV传导阻滞的禁忌证过滤这些候选者。使用带有参数“AV block”的get drug name by contraindication,TXAGENT搜索FDA批准的药物标签中的禁忌症。结果显示,其中两种回收的高血压药物禁用于2度房室传导阻滞患者。然后,TXAGENT总结了非禁忌药物的机制,并将其作为最终答案。本案例研究强调了TXAGENT将合并症考虑因素整合到治疗建议中并使用FDA药物标签有效搜索和过滤候选药物的能力。
3.7 工具在TOOLUNIVERSE对TXAGENT的表现的影响
我们评估两个因素:工具的可靠性与基于语言模型的替代方案相比,以及扩展TOOLUNIVERSE对智能体性能的影响。
TOOLUNIVERSE工具提供比LLMs更准确的信息。TOOLUNIVERSE通过专业工具集成经过验证的知识来源,提高了TXAGENT的推理准确性。 我们将其效果与仅使用LLM方法进行比较,在这种方法中,模型通过接收描述每个工具功能和参数的结构化提示来模拟工具功能(图3c,在线方法第6.1节)。 在这项分析中,GPT-4o和Llama 3.1-Instruct-8B作为后端LLMs,其他所有设置保持不变。 将TOOLUNIVERSE中的真实工具替换为基于LLM的工具会显著降低准确性。 在DrugPC中,使用Llama3.18B-Instruct作为工具将准确性从93.8%降至68.7%(-25.1%),而使用GPT-4o的结果为72.7%(-21.1%)。 尽管GPT-4o表现更好,但这两种模型仍然逊色于TOOLUNIVERSE,显示了LLM-only方法在检索精确生物医学信息方面的局限性。 我们在TreatmentPC上观察到类似的模式。GPT-4o和Llama3.1-8B-Instruct分别达到了67.11%和74.78%的准确性,而在TOOLUNIVERSE中使用真实工具时为86.84%。 尽管先进的LLMs提高了事实的一致性,但它们仍然表现不及现实世界的工具。TOOLUNIVERSE确保了可验证的结果,使用户能够验证TXAGENT的推理过程和最终输出。
TOOLUNIVERSE的扩展提高了性能。我们通过测量随着工具数量增加性能的变化来评估TOOLUNIVERSE的有效性和可扩展性。我们构建四个子集,分别包含TOOLUNIVERSE的10%、20%、50%和75%,确保每个较大的子集包含较小子集中的所有工具。这种方法使我们能够评估添加工具的渐增影响,同时在评估间保持连续性。使用每个子集和完整的TOOLUNIVERSE配备的TXAGENT,我们在DrugPC和TreatmentPC基准上测量准确性。在DrugPC上,准确性从拥有10%工具的78.4%增加到整体选择的93.8%。在TreatmentPC上也观察到类似的趋势,准确性从71.7%上升到86.8%。这些结果表明扩展TOOLUNIVERSE可以始终改善TXAGENT处理复杂、专业治疗任务的能力。
3.8 TXAGENT中推理的关键作用
这一部分通过三个实验评估了推理在TXAGENT中的作用。首先,我们通过删除思考生成过程来评估其影响。其次,我们通过限制最大推理轨迹来研究训练数据中推理步骤数量对性能的影响。最后,我们通过强制TXAGENT在预定义的步数后生成最终答案来评估推理在推断过程中的影响。
显式思维生成推动TXAGENT中的推理。我们通过在DrugPC和TreatmentPC基准上,使用准确性作为度量标准来比较TXAGENT具有和没有这个过程的影响(图3e)。与现有仅生成函数调用的工具使用LLMs不同,TXAGENT在每个步骤都产生推理思路和函数调用。为了评估思维生成的重要性,我们修改了TXAGENT,使其仅生成不包含中间推理的函数调用。在最后一步,它直接输出答案,而不是通过函数调用推理。我们通过将思维过程从TXAGENT-INSTRUCT数据集中移除来实现这一点(在线方法6.2节)。消除思维生成会使DrugPC的准确性从93.8%降至71.5%(-22.3%),TreatmentPC从...
86.4%到64.9%(-21.5%)。这种下降表明了TXAGENT中显式推理的关键作用及其相对于仅依赖函数调用的工具使用LLMs的优势。
长时间的多步训练过程可以改善复杂任务的性能。我们评估了TXAGENT在DrugPC和TreatmentPC基准上的性能如何受到其训练数据中推理步骤数量的影响,以准确率作为度量标准(见图3f)。TXAGENT通过在TXAGENT-INSTRUCT数据集上微调来获得多步推理能力。为了评估推理深度的影响,我们对训练数据进行过滤,保留至多1、3或5个推理步骤的样本,或所有可用的步骤(参见在线方法第4.1节)。在推断期间,TXAGENT在推理步骤数量上没有限制。在训练中减少推理步骤会显著降低性能。只使用1个推理步骤训练的模型在TreatmentPC上的准确率从86.8%下降到66.9%,在DrugPC上从93.8%下降到71.6%。在TreatmentPC上下降更为明显,表明复杂的治疗决策需要更强的多步推理。这些结果表明,在训练期间进行更深层次的推理可以提高TXAGENT处理复杂治疗任务的能力。
推理足迹越长,性能越好。我们通过在TXAGENT上强加步骤限制,使用TreatmentPC基准和准确率作为评估指标(图3g)来评估推理过程中推理深度的影响。TXAGENT在完整的TXAGENT-INSTRUCT数据集上进行训练,但在推理过程中被限制在最大数量的推理步骤上。根据算法1的描述,我们不再允许TXAGENT自主确定何时生成特殊标记[FinalAnswer],而是在TXAGENT达到步数限制时强制执行该标记,指示其根据累积的推理轨迹产生最终答案。对于推理步骤少于限制的情况,推理过程保持不变。随着推理步骤限制增加,准确性得到提高。当限制为单步时——相当于生成直接答案的传统LLMs,TXAGENT实现了73.5%的准确率,比其无限制的多步推理配置低13.3%。性能随着额外步骤的增加而持续改善,表现出显著的增益,直到五步之后,改善趋于平缓。超过五步后的收益递减表明,在这个范围内发生了大部分基本推理,尽管保持完整的推理能力仍然是最佳选择。
作为参考,我们提供了TXA-的平均推理步骤和工具调用数
在扩展数据图4中,治疗PC基准比药物PC基准需要更多的推理步骤,表明在得出结论之前,精确的治疗建议需要更多的推理步骤。类似地,与药物PC相比,治疗PC基准涉及更多的工具调用。在比较多项选择和开放式设置时,药物PC在推理步骤或工具调用方面没有显著差异。然而,在开放式设置中,与多项选择设置相比,治疗PC需要显著更多的推理步骤和工具调用。
4 讨论
TXAGENT是一种AI智能体,应用多步推理和工具使用来解决治疗问题,包括药物处方和疾病治疗建议,同时考虑患者特定因素。与传统模型不同,TXAGENT生成一个推理路径以及其答案,使其决策过程透明且可解释。TXAGENT集成了来自TOOLUNIVERSE的外部工具,以检索实时生物医学知识,克服了仅依赖静态训练数据的LLMs的局限性。这使TXAGENT能够推荐新批准的药物,评估适应症,并提供基于证据的处方。通过将响应基于经过验证的来源,TXAGENT允许用户以透明的方式跟踪每个决策步骤。
治疗决策必须考虑患者特异性因素,包括年龄、合并症、妊娠状态、疾病严重程度和免疫功能。现有模型预测了疾病与药物的联系,但没有考虑这些变化。TXAGENT通过动态的多步骤推理来解决此限制。它根据表型识别疾病,通过考虑相关的表型和生物靶点来检索潜在的治疗方法,并根据患者特征评估药物适用性。TXAGENT不是遵循固定的顺序,而是通过对生物医学工具的迭代函数调用来调整其推理,确保决策基于经过验证的来源,例如FDA药物标签。例如,TXAGENT确定XOLREMDI(一种治疗WHIM综合征的药物)不应与CYP2D6抑制剂百忧解一起使用,因为它会改变Xolremdi的新陈代谢。通过将患者特定的限制因素整合到其推理过程中,TXAGENT确保提供临床相关和个性化的治疗建议。
TXAGENT的限制突出了未来研究的领域。它依赖于工具调用外部信息,但TOOLUNIVERSE中的缺口限制了对特定数据类型的访问,从而限制了其解决更广泛问题的能力。TXAGENT内部知识的不确定性量化仍然是一个挑战。当前的方法通过外部工具来确定推理,从而提高了可验证性。然而,将内部知识与工具反馈整合起来可能会增强探索性任务的灵活性。TXAGENT仅处理自然语言输入,尚不支持其他形式,如病理图像、电子健康记录数据或基于网络的实验室结果。扩展多模态支持将使TXAGENT能够处理更复杂的情况和专业临床分析。
TXAGENT是一个治疗推理的AI智能体,利用各种工具生成基于多源医学证据和不断更新的医学知识的透明推理过程。它整合了来自FDA药品标签、Open Targets和其他信任来源的验证信息,以产生基于证据的治疗建议。将来,通过整合临床模块和患者医学史的扩展记忆,TXAGENT可分析多模式临床数据[33]。TXAGENT通过促进个性化疗法选择和支持符合监管要求的临床决策,建立了一个新的精准治疗框架。
数据和代码可用性。 该项目页面可在https://zitniklab.hms.harvard.edu/Tx Agent上找到。TXAGENT的代码和演示可在https://github.com/mims-harvard/TxAge nt上找到。TOOLUNIVERSE的代码可在https://github.com/mims-harvard/ToolUniverse上找到。 预训练模型可在https://huggingface.co/collections/mims-harvard/txagent-67c8e54a9d03a429bb0c622c上找到。
鸣谢
图1:a)TXAGENT处理与专业治疗相关的问题,逐步生成详细的问题跨大量生物医学工具和专用工具。它提供由清晰、合理和经过验证的推理跟踪支持的解决方案。b) 示例工具和机器学习工具。TOOLUNIVERSE整合了211个链接的工具到可信来源,包括自1939年以来所有美国FDA批准的药物,以及来自开放目标和Monarch倡议。机器学习工具(例如TOOLRAG模型)基于机器学习模型而不是API。c)TOOLUNIVERSE包括211种生物医学工具,用于解决
药物和疾病的各个方面。它涵盖以下类别:不良事件、风险、安全性;成瘾和虐待;患者群体中的药物使用;药物管理和处理;药理学;药
用途、机制、成分;ID和标记工具;一般临床注释;临床实验室信息;
患者和亲属的一般信息;疾病、表型、靶点、药物链接;生物注释工具;
出版物;搜索;靶标表征。d)TXAGENT表现出卓越的性能
到具有大量参数的LLM,例如GPT-4o,在开放式和多项选择中都表现出色问题。e) 与工具使用的LLM相比,TXAGENT表现出卓越的性能,后者还拥有对TOOLUNIVERSE的完全访问权限,在开放式和多项选择题中都表现出色。f-i) 能力
TXAGENT:使用工具调用的知识基础、面向目标的工具选择、问题解决通过多步骤推理,并利用不断更新的知识库。f) 知识基础使用
工具调用,其中TXAGENT利用工具获取经过验证的知识并基于它提供输出。
g) 面向目标的工具选择,其中TXAGENT使用
TOOLRAG模型模型,并从可用的候选工具中选择并应用最合适的工具。
h) 通过多步推理解决问题,其中TXAGENT管理复杂任务或意外任务通过多次迭代的thought和function调用来响应工具。i) 不断杠杆
更新了知识库,TXAGENT持续访问其中
图2:a)TXAGENT-INSTRUCT数据集是一个多样化的合成多步推理和海量函数调用以生物医学知识为基础的训练数据集。为了生成TXAGENT-INSTRUCT,我们构造三个数据集-一个工具数据集、一个综合治疗问题数据集和一个推理跟踪数据集-使用辅助智能体系统。工具数据集由211的增强版本组成来自TOOLUNIVERSE的工具。全面的治疗问题数据集包括85,340个治疗问题旨在训练TXAGENT能力的问题和功能说明。这些由QUESTIONGEN智能体系统。推理跟踪数据集包含85340个详细的推理跟踪回答治疗问题。这些跟踪总共包括177,626个推理步骤和281,695个函数调用,全部TRACEGEN智能体系统生成。通过处理来自这三个数据集中,我们构建了TXAGENT-INSTRUCT,其中包含378,027个指令调整数据样本。
b)TXAGENT在DrugPC数据集的11项任务中优于大型开源LLM和GPT-4,在开放式和多项选择题中都表现出色。这些任务涵盖各种与药物相关的主题,包括药物概述、成分、警告和安全性、依赖和滥用、剂量和管理,用于特定人群, 药理学, 临床信息, 非临床毒理学, 以患者为中心信息,以及存储和供应。c) 在DrugPC数据集的11项任务中,TXAGENT展示了与现有的工具使用LLM相比,性能更胜一筹。
图3:a)TXAGENT在DrugPC基准测试中超越了原生和工具用LLM,以及其Brand和Generic变体,其中药物名称被替换为其品牌和仿制药对应物。此外,TXAGENT在处理具有不同表示形式的药物名称时表现出最小的差异。
b)TXAGENT在DescriptionPC基准测试的两步评估中超越了LLM,其中药物名称替换为其描述,包括适应症、作用机制、禁忌证、
和交互。在此评估中,第一步涉及根据以下因素确定正确的药物名称其描述,然后使用正确识别的药物名称回答问题。c) 比较
来自TOOLUNIVERSE的实际工具与依赖LLM的内部知识作为替代品用于DrugPC和TreatmentPC基准测试的外部工具。与TXAGENT配对时,TOOLUNIVERSE工具提供的信息比使用LLM ike GPT-4o作为工具更准确。d) 的影响增加TOOLUNIVERSE中DrugPC和TreatmentPC基准测试中的工具数量。随着工具被整合到TOOLUNIVERSE中,结果始终证明稳定和显著
性能改进。e) 显式思维生成是TXAGENT中推理的基础。我们
在DrugPC和TreatmentPC基准测试中评估TXAGENT,无论是否产生思想。缺乏思维生成会导致性能显著下降,这凸显了其本质
在TXAGENT的推理过程中的角色。f) 训练数据中的长多步跟踪增强了TXAGENT的处理复杂任务的能力。我们研究了TXAGENT训练中的推理步骤数数据会影响其在DrugPC和TreatmentPC基准测试中的性能。作为推理数步骤减少,性能逐渐下降,这表明更复杂的任务需要更强的来自TXAGENT的多步推理功能。g) 更长的推理跟踪可以提高模型性能。为了评估推理过程中推理的影响,我们对TXAGENT施加了步长限制并评估其在TreatmentPC基准测试中的性能。结果显示,准确率呈明显的上升趋势,因为的推理步骤增加,突出了扩展推理在TXAGENT推理中的重要性
过程。
图4:a)TXAGENT与TreatmentPC上的大规模LLM之间的性能比较基准。尽管基于80亿个参数的模型,但TXAGENT的性能优于更大的LLM例如GPT-4o和Llama 3.1-70B-Instruct在开放式和多项选择设置中。特别是在开放式设置中,TXAGENT的准确率 (75%) 高于GPT-4o在多项选择中设置 (74.1%),即使后者受益于简化任务的预定义答案选项。
b)TXAGENT和工具使用LLM在TreatmentPC基准测试中的性能比较。虽然ToolACE-8B和WattTool-8B与TXAGENT一样,在Llama-3.1-8B-Instruct上进行了微调,并具有完全访问TOOLUNIVERSE时,TXAGENT仍然实现了显着更高的性能。c) 性能TXAGENT与TreatmentPC上的推理LLM(例如DeepSeek-R1)之间的比较基准。与完整的DeepSeek-R1模型及其两个基于Llama-3.1-8B和Llama-3.3-70B的蒸馏版本。d)TXAGENT将Duvyzat确定为最佳通过评估药物机制治疗儿科杜氏肌营养不良症患者儿科使用指南。e)TXAGENT评估百忧解和Xolremdi,强调了由于它们对CYP2D6酶的影响而联合使用的风险。f) 发送智能体
为老年患者提供个性化、循证的治疗建议,调整最大剂量
的Cobenfy基于特定年龄的考虑和相关风险。g)TXAGENT个性化治疗建议 通过考虑合并症,确保高血压药物没有禁忌证用于患者的二度房室传导阻滞。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓