重磅!哈佛推出首个用于治疗推理的AI智能体,可自行调用211个工具

TxAgent:首款用于跨工具进行治疗推理的人工智能代理

img

精准治疗需要多模态自适应模型来生成个性化治疗建议。哈佛研究人员推出了 TxAgent,这是一种人工智能代理,它利用 211 个工具组成的工具箱进行多步推理和实时生物医学知识检索,以分析药物相互作用、禁忌和针对特定患者的治疗策略。TxAgent 评估药物在分子、药代动力学和临床层面的相互作用方式,根据患者的合并症和同时使用的药物确定禁忌,并根据患者的个体特征(包括年龄、遗传因素和疾病进展)制定治疗策略。TxAgent 从多个生物医学来源检索和综合证据,评估药物与患者状况之间的相互作用,并通过迭代推理完善治疗建议。它根据任务目标选择工具,并执行结构化函数调用,以解决需要临床推理和跨源验证的治疗任务。ToolUniverse 整合了来自可靠来源的 211 个工具,包括自 1939 年以来所有美国 FDA 批准的药物以及来自 Open Targets 的经过验证的临床见解。TxAgent 在五个新基准(DrugPC、BrandPC、GenericPC、TreatmentPC 和 DescriptionPC)上超越了领先的大型语言模型、工具使用模型和推理代理,涵盖了 3168 个药物推理任务和 456 个个性化治疗场景。在开放式药物推理任务中,它实现了 92.1% 的准确率,比 GPT-4o 高出多达 25.8%,在结构化多步推理方面优于 DeepSeek-R1(671B)。TxAgent 可在药物名称变体和描述之间进行泛化,在品牌、通用和基于描述的药物参考之间保持小于 0.01 的方差,比现有工具使用的大型语言模型高出 55% 以上。通过整合多步推理、实时知识基础和工具辅助决策,TxAgent 确保治疗建议与既定的临床指南和实际证据一致,降低不良事件风险并改进治疗决策。

TxAgent重新定义了人工智能如何进行推理、检索和整合生物医学知识以实现精准治疗。

No alt text provided for this image

🔍超越预测——用于医学的推理人工智能

TxAgent 不仅仅是另一个预测模型。它是第一个旨在思考治疗问题、迭代查询外部来源并生成透明的逐步推理轨迹的人工智能系统。通过整合实时生物医学知识,TxAgent 的治疗建议准确且不断更新。

No alt text provided for this image

🔗将 TxAgent 与 671B DeepSeek-R1 进行基准测试

TxAgent 与 DeepSeek-R1(671B,英伟达)和其他领先的人工智能模型进行了基准测试。TxAgent 在多步治疗推理方面优于更大的大型语言模型,在药物选择、治疗个性化和治疗推理方面实现了高达 92.1%的准确率。

No alt text provided for this image

🏥TxAgent 的工具宇宙中的 211 个工具包含什么?

✅自 1939 年以来所有 FDA 批准的药物——包括来自 FDA 药品标签和 OpenFDA 的药物机制、适应症、禁忌症、剂量、安全警告和药代动力学。

✅来自 Open Targets 的临床见解——提供用于精准医学的最新药物-疾病、表型和分子靶点关联。

✅药理学——涵盖基于合并症和同时用药的药物相互作用、代谢途径和禁忌症。

✅个性化治疗指南——评估患者特定因素,如年龄、怀孕、肾功能和遗传变异。同时评估分子、药代动力学和临床水平的相互作用。评估患者因素,如遗传学、合并症和疾病阶段。

✅实时检索——从不断更新的来源查询最新的治疗适应症、监管批准。

🔥主要特点:

- 基于检索的推理——超越基于检索增强生成(RAG)的检索,转向结构化的多步决策。

- 工具增强型人工智能——与 211 个生物医学工具交互。

- 实时知识整合和持续学习——响应始终基于最新的临床知识. 通过始终整合实时来源,不会有过时的医学知识。

- 动态工具选择——通过实时选择最相关的工具来调整其推理。

- 基于医学的可靠人工智能——降低幻觉风险,验证每一步,并使建议与临床指南保持一致。

全文总结

这篇论文介绍了一个名为TXAGENT的AI代理,用于通过多步推理和工具使用实现治疗推理。

研究背景

  1. 背景介绍:

    这篇文章的研究背景是精准治疗需要多模态自适应模型来生成个性化的治疗方案。现有的大型语言模型(LLMs)虽然能够处理治疗任务,但缺乏实时访问更新的生物医学知识的能力,并且常常出现幻觉和不可靠的推理。

  2. 研究内容:

    该问题的研究内容包括开发一个AI代理TXAGENT,通过多步推理和实时生物医学知识检索来分析药物相互作用、禁忌症和患者特定的治疗策略。

  3. 文献综述:

    该问题的相关工作包括使用LLMs进行治疗任务的处理,但这些模型通常缺乏实时更新的知识和多步推理能力。工具增强的LLMs通过外部知识检索机制来缓解这些问题,但仍无法执行复杂的治疗选择所需的迭代推理。

研究方法

这篇论文提出了TXAGENT,用于解决治疗推理问题。具体来说,

  1. TXAGENT:

    TXAGENT是一个AI代理,通过多步推理和实时生物医学工具集成来生成基于证据的治疗建议。它评估药物在分子、药代动力学和临床层面的相互作用,识别基于患者共病和并发药物的禁忌症,并根据患者的年龄、遗传因素和疾病进展定制治疗策略。

  2. TOOLUNIVERSE:

    TOOLUNIVERSE是一个包含211个工具的工具箱,这些工具来自可信来源,包括自1939年以来所有美国FDA批准的药物和Open Targets的验证临床见解。

  3. TXAGENT-INSTRUCT数据集:

    为了支持复杂的医疗查询,TXAGENT使用TXAGENT-INSTRUCT数据集进行训练,该数据集包含378,027个指令调整样本,源自85,340个多步推理轨迹和281,695个函数调用。

实验设计

  1. 数据收集:

    数据集从FDA药物标签文档和PrimeKG数据库中获取药物和疾病信息。药物数据来自FDA药物标签,疾病信息来自PrimeKG。

  2. 实验设计:

    TXAGENT在五个新基准上进行评估:DrugPC、BrandPC、GenericPC、TreatmentPC和DescriptionPC。这些基准涵盖了3,168个药物推理任务和456个个性化治疗场景。

  3. 样本选择:

    在DrugPC基准中,评估了2024年FDA批准的新药物,以减少LLMs在预训练中遇到这些药物的可能性。

  4. 参数配置:

    TXAGENT基于80亿参数的Llama-3.1-8B-Instruct模型进行微调。

结果与分析

  1. 性能比较:

    TXAGENT在开放性药物推理任务中达到92.1%的准确率,超过了GPT-4o的66.3%,并在结构化多步推理中优于DeepSeek-R1(671B)。

  2. 药物名称变体:

    TXAGENT在品牌、通用和描述药物参考之间的准确率方差小于0.01,优于现有工具使用LLMs超过55%。

  3. 个性化治疗:

    在TreatmentPC基准中,TXAGENT在开放性设置中达到75.0%的准确率,优于GPT-4o的74.1%和Llama-3.1-70B-Instruct的33.1%。

总体结论

TXAGENT通过整合多步推理、实时知识基础和工具辅助决策,确保治疗建议与既定的临床指南和现实世界证据一致,减少了不良事件的风险并提高了治疗决策的质量。TXAGENT展示了在精准治疗中的潜力,通过结合多源医学证据和不断更新的医学知识,为个性化治疗提供了透明的推理过程。未来的研究可以扩展多模态支持,以处理更复杂的病例和专门的临床分析。

精读

核心速览

研究背景

  1. 研究问题

    这篇文章要解决的问题是如何在精准医疗中实现多模态自适应模型,以生成个性化的治疗建议。具体来说,研究如何利用人工智能代理(TXAGENT)结合多步推理和实时生物医学知识检索,分析药物相互作用、禁忌症和患者特定的治疗策略。

  2. 研究难点

    该问题的研究难点包括:现有的大型语言模型(LLMs)缺乏实时访问更新的生物医学知识的能力,容易产生幻觉,无法可靠地推理多个临床变量;重新训练这些模型以包含新的医学见解计算成本高且不切实际;LLMs吸收大量开放网络数据,可能包含未经证实或故意误导的医学信息。

  3. 相关工作

    该问题的研究相关工作包括:LLMs在治疗任务中的应用,如大规模预训练后根据医学数据进行微调;工具增强的LLMs,通过检索增强生成(RAG)机制缓解上述问题,但这些模型无法执行多步推理所需的治疗选择。

研究方法

这篇论文提出了TXAGENT,用于解决精准医疗中的多模态自适应模型问题。具体来说,

  1. TXAGENT架构

    TXAGENT由三个主要组件组成:(1)TOOLUNIVERSE,一个包含211个生物医学工具的集合;(2)一个专门为多步推理和工具执行微调的LLM;(3)TOOLRAG模型,一个自适应的工具检索模型。TXAGENT通过目标驱动的工具选择和结构化函数调用来解决治疗任务,确保准确性和临床推理。

  2. TOOLUNIVERSE

    TOOLUNIVERSE整合了来自可信来源的211个工具,包括自1939年以来所有获批的美国FDA药物和来自Open Targets的验证临床洞察。这些工具涵盖了药物机制、相互作用、临床指南和疾病注释的各个方面。

  3. TOOLRAG模型

    TOOLRAG模型是一个基于ML的检索系统,根据查询上下文动态选择TOOLUNIVERSE中最相关的工具。该模型通过将工具描述转换为语义嵌入,并从高相似度的工具中选择最佳候选工具。

  4. TXAGENT-INSTRUCT数据集

    为了支持复杂的医学查询,TXAGENT使用TXAGENT-INSTRUCT数据集进行微调。该数据集由三个辅助代理系统生成:QUESTIONGEN用于生成治疗问题,TRACEGEN用于生成逐步推理痕迹。TXAGENT-INSTRUCT包含378,027个指令调优样本,涵盖177,626个推理步骤和281,695个函数调用。

实验设计

  1. 数据收集

    TXAGENT-INSTRUCT数据集的信息来源于多个可信的生物医学数据库,包括OpenFDA、Open Targets和PrimeKG。数据集包括378,027个指令调优样本,涵盖177,626个推理步骤和281,695个函数调用。

  2. 实验设计

    论文构建了五个新的基准测试(DrugPC、BrandPC、GenericPC、DescriptionPC、TreatmentPC),以全面评估药物选择、治疗个性化和推理鲁棒性。实验在多个选择和多步推理设置中进行,评估模型在结构化和非结构化查询中的表现。

  3. 样本选择

    在DrugPC基准中,选择了2024年FDA批准的3,168种新药物,涵盖11个常见的治疗任务。BrandPC和GenericPC基准分别用品牌和通用名称替换药物名称,DescriptionPC基准用药物描述替换药物名称。TreatmentPC基准包含456个针对特定治疗场景的问题。

  4. 参数配置

    TXAGENT基于80亿参数的Llama-3.1-8B-Instruct模型进行微调。训练过程中使用了多GPU分布式训练方法,确保模型能够处理大规模数据和长上下文窗口。

结果与分析

  1. DrugPC基准

    在多选择设置中,TXAGENT的准确率为93.8%,超过Llama-3.1-70B-Instruct的75.1%。在开放式设置中,TXAGENT保持92.1%的准确率,而Llama-3.1-70B-Instruct下降到52.8%。相比之下,GPT-4o在开放式设置中的准确率为66.3%,低于TXAGENT的25.8%提升。

  2. BrandPC和GenericPC基准

    TXAGENT在两个基准上的准确率分别为93.6%和93.7%,均优于纯LLMs和工具使用LLMs。与纯LLMs相比,TXAGENT分别提高了20.6%和16.4%的准确率。

  3. DescriptionPC基准

    在仅答案正确的评估中,TXAGENT的准确率为90.4%,超过GPT-4o的85.9%。在药物识别和答案选择的两步评估中,TXAGENT在药物识别的准确率为60.1%,显示出其在药物识别方面的强大能力。

  4. TreatmentPC基准

    在多选择设置中,TXAGENT的准确率为86.8%,超过Llama-3.1-8B-Instruct的56.1%。在开放式设置中,TXAGENT达到75.0%,超过Llama-3.1-8B-Instruct的33.1%。与DeepSeek-R1相比,TXAGENT在多选择设置中提高了10.3%的准确率,在开放式设置中提高了7.5%。

总体结论

这篇论文介绍了TXAGENT,一种通过多步推理和实时生物医学工具集成提供证据支持的治疗建议的AI代理。TXAGENT在多个基准测试中优于现有的LLMs和工具使用LLMs,展示了其在药物推理和个性化治疗推荐中的优越性。通过整合多步推理、实时知识定位和工具辅助决策,TXAGENT确保了治疗建议与临床指南和现实世界证据一致,减少了不良事件的风险并改善了治疗决策。未来的研究方向包括扩展TOOLUNIVERSE以涵盖更广泛的数据类型,以及在TXAGENT中整合内部知识以提高灵活性。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值