Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents (2024.5)

最新推荐文章于 2024-09-30 14:16:32 发布

啊我有兔子牙

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量918

点赞数 7

分类专栏：医疗AI学习文章标签：人工智能

本文链接：https://blog.csdn.net/kakaxiii/article/details/140872154

版权

医疗AI学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

信息
地址：https://arxiv.org/abs/2405.02957
作者单位：清华
这是一个很有意思也很有价值的工作。之前在其它领域，有斯坦福小镇，ChatDev(软件工程领域)这样的工作。
可评估下，是否可以复现出论文的工作。这对于你之前讨论的提升患者就诊过程中的某些环节的效率，提供了一种新的实现路径和技术策略思路。
摘要：
在本文中，我们介绍了一种名为Agent Hospital的医院模拟器，它可以模拟治疗疾病的整个过程。所有病人、护士和医生都是由大型语言模型（LLM）驱动的自主智能体。我们的核心目标是让医生智能体学会如何在模拟环境中治疗疾病。为此，我们提出了一种名为 MedAgent-Zero 的方法，这是一种无需手动标记数据的代理自我进化策略。由于模拟仿真系统可以根据知识库和 LLM 模拟疾病的发生和发展，医生智能体可以不断从成功和失败的病例中积累经验。模拟实验表明，医生智能体在各种任务中的治疗效果都在不断提高。更有趣的是，医生智能体在Agent Hospital中获得的知识适用于现实世界的医疗基准。在治疗了约一万名患者后（现实世界中的医生可能需要花费两年多的时间），进化后的医生智能体在涵盖主要呼吸系统疾病的 MedQA 数据集子集上达到了 93.06% 的一流准确率。这项工作为推进 LLM 驱动的代理技术在医疗场景中的应用铺平了道路。
技术要点：
研究背景
大型语言模型（LLM）智能体在多种任务中展示了潜力，包括代码生成、信息游戏和问答等。研究者们利用LLM代理来模拟人类互动和行为，例如社交媒体上的信息传播和“斯坦福小镇”模拟项目。LLM智能体在医学领域的应用被认为是AI技术能够带来显著改进的理想场景。
拟解决的研究问题
是否可以结合LLM在解决特定任务和进行社会模拟的两种能力？-- 即社会模拟过程是否能够提高LLM在特定任务上的性能。具体来说，研究者希望通过设计医院的模拟环境来验证这一假设，并通过模拟医疗LLM代理的进化来探索这一问题。
如何在模拟环境中训练医生代理，使其能够通过模拟病人的互动来自我进化和提高治疗表现。
如何在没有手动标注数据的情况下，通过模拟经验积累来提升医生代理的性能。
现有工作的特点和优缺点
现有的研究通常将医疗知识整合到LLM/智能体中，通过预训练、监督微调或检索增强生成策略来构建强大的医疗模型。现有的训练范例需要使用大量的数据语料库或大量的人工监督，被认为成本高昂。
因此，自进化方法的发展势头强劲。这些方法使 LLM 支持的代理能够通过自我进化策略自主获取、完善和学习。
目前对代理进化的研究主要集中在孤立和独立的任务上，与世界模拟的整合不足，特别是在医疗保健模拟等环境中，患者的病情随着时间的推移会发生动态进展。现有研究[8, 24]大多侧重于模拟治疗任务，而不是完全模拟治疗患者疾病的整个封闭周期。他们也无法让医生在整个过程中不断发展，更不用说模拟季节性流感爆发等社会医疗事件了。我们的工作旨在填补现有研究的空白，希望能够更好地利用法学硕士进行诊断和治疗，为医疗决策提供更准确、更有效的支持。
论文中提出的方法的核心思路、主要步骤、优缺点、创新点
（1）核心思路
提出MedAgent-Zero策略，通过模拟医疗环境中的医生-病人互动来训练医生代理。
医生智能体通过积累成功和不成功的案例记录来自我进化，无需手动标注数据。
反思与批判
智能体还可以在解决方案生成过程中参与反思过程，以促进自我进化。 STaR [30] 在解决任务时提供基本原理。如果发生错误，它会修改基本原理和响应，然后通知模型进行微调以提高模型性能。 LSX [22]引入了两个相互关联的模块，它们协同工作来进化：一个执行基础任务的学习者模块和一个评估学习者提供的解释质量的批评者模块。此外，SelfEvolve 和 LDB [6, 35] 通过使其能够反思和学习操作期间生成的反馈来增强代理的代码生成能力。通过这种反思过程，代理可以自我进化，完善其方法，从而提高性能。我们从之前的一项研究中汲取灵感[33]，让医生代理人能够从失败中学习。
（2）主要步骤
模拟医院环境：构建了一个名为Agent Hospital的模拟环境，包括病人、护士和医生智能体。
智能体角色设计：设计了医疗专业人员和居民（潜在病人）两种角色。
规划和互动：为代理设计了日常规划和动态规划，以及与病人的互动流程。
医疗任务定义：定义了检查判断、诊断和治疗计划三个医疗任务。
数据集生成：利用LLM生成模拟电子健康记录。
智能体自我进化：通过MedAgent-Zero策略，医生代理在模拟环境中通过实践和学习自我进化。
（3）优缺点
优点：
无需手动标记数据，降低了训练成本。
智能体可以在模拟环境中快速积累经验，提高效率。
智能体在模拟环境中的表现可以转化为现实世界医疗基准的适用性。
MedAgent-Zero 策略为无知识的无参数代理进化提供了一种新方法。通过使代理能够通过模拟中的持续交互和反馈循环来完善和扩展他们的专业知识，该策略增强了他们的能力，而无需任何手动标记的数据。
缺点：
模拟环境与现实世界可能存在差异，影响智能体进化的现实适用性。
虽然每个患者的健康记录和检查结果都是在没有领域知识的情况下模拟真实的电子健康记录而生成的，但与现实世界的记录仍然可能存在一些差异。
智能体的性能可能受限于LLM的能力和模拟环境的设计。仅采用 GPT-3.5 作为我们代理医院和评估的模拟器，由于涉及API调用的演变，我们医院的效率受到LLM生成的限制。
实验结果
通过MedAgent-Zero策略训练的医生代理在模拟医院中处理模拟患者时，其治疗表现在各种任务上持续改善。特别是在处理了大约一万个病人后（现实世界中的医生可能需要超过两年的时间），进化的医生代理在MedQA数据集的一个子集上达到了93.06%的最新准确率，该子集涵盖了主要的呼吸系统疾病。这表明模拟环境可以有效地协助LLM智能体在处理特定任务时的进化

7.1 主要发现首先，我们的研究验证了代理医院内部自我进化的可能性，为医学法学硕士/代理的研究提供了新的方法。这一见解展示了模拟环境中代理进化的新方法，代理可以在无需人工干预的情况下提高其技能。其次，所提出的 MedAgent-Zero 策略为无知识的无参数代理进化提供了一种新方法。通过使代理能够通过模拟中的持续交互和反馈循环来完善和扩展他们的专业知识，该策略增强了他们的能力，而无需任何手动标记的数据。第三，Agent Hospital 展示了良好的可扩展性和交互性，使其适合更复杂的医学模拟实验。其设计允许广泛的定制和调整，使研究人员能够测试医疗保健领域内的各种场景和交互。
7.2 局限性我们的工作还存在一些局限性： 1) 我们仅采用 GPT-3.5 作为代理医院和评估的模拟器。2) 由于代理和他们的代理医院之间存在交互：进化涉及 API 调用，我们医院的效率受到 LLM 生成的限制。3) 虽然每个病人的健康记录和检查结果都是在没有领域知识的情况下模拟真实电子健康记录生成的，但可能与真实世界的记录仍有一些差异。
7.3 未来工作我们对代理医院的未来计划主要包括以下内容： 1) 扩大模拟中涵盖的疾病范围，并扩展到更多的医疗部门，旨在反映真实医院提供的全面服务，供进一步研究。2) 加强代理的社会模拟方面，如纳入医疗专业人员的全面晋升制度、随时间改变疾病的分布、纳入病人的历史病历等。这些修改将增加代理互动和决策的深度。3) 优化基础 LLM 模型的选择和实施，旨在通过利用功能强大的开源模型，更高效地执行整个仿真过程。
2. 汇总（解决问题、创新点、难点、还能改进、启发）
医疗指标整理
3. 内容

GPT3.5演两个角色
医生，还分为不同的专科医生，负责诊断和制定医疗计划，护士负责每日治疗干预
居民生病后后变成病人，为了简单，医生不会生病，每个人都有个人信息，后续被赋予一种疾病名，然后像真实患者一样寻求治疗
全面的模拟治疗的全部时间，包括去诊室等，这在医院治疗评估也有体现
我关注的
- 怎么判断，评估，治疗有效，患者转好
  - 收到治疗方案后，会在LLM的帮助下预测居民的健康状况变化，一旦康复，他们会主动向医院汇报进行随访。

代理医院概述。它是一个医院的模拟体，其中患者、护士和医生都是由大型语言模型驱动的自主代理。代理医院模拟患者疾病治疗的整个闭环：发病、分诊、挂号、问诊、体检、诊断、配药、康复、出院后随访。一个有趣的发现是，无论是在模拟还是在现实世界的评估中，医生代理人都可以随着时间的推移不断提高治疗效果，而无需手动标记数据。

思考
遮掩与模糊：无法保证病人的数据与沟通方式准确。衡量医生临床有效性没说清楚，具体的指标计算没说清楚，通过选择题验证，不足以说明真实世界有效

它的病例数据涉及人工验证：我们生成的病例严格遵循医学原则，数据构建过程涉及人工验证信息，以确保生成的内容符合医学逻辑。例如，附录图15说明了模拟COVID-19患者的应用医学知识。
在3.4节中，我们介绍了如何基于LLM为患者生成模拟电子健康记录。生成此类记录还需要基础领域知识。所以我们主要收集了第八版《传染病》中8种有代表性的呼吸道疾病的数据[10]，对于每种疾病，都会收集症状、实验室测试/检查结果和治疗计划。涵盖 8 种不同的呼吸系统疾病，十几种体检，针对每种疾病三种不同的治疗方案。之后，将疾病知识添加到病历生成提示中。我们通过LLM生成了大约一万条记录，其中10,000条记录用于训练，500条记录用于测试。每条记录都涉及三项医学测试（检查、诊断和治疗），以帮助医生代理人在实践中不断发展。该数据集被命名为模拟医疗数据集。
1. 常驻代理在醒来时会随机感染预定义数据集中的疾病。每种疾病分为三个严重级别之一：轻度、中度或重度。该模拟将LLM生成的具体疾病症状、诊断结果、潜在并发症、所有类型的检查结果、鉴别诊断、确诊、治疗方案和预防措施分配给每个住院医师。这些详细信息包含在完整的医疗记录中，如附录中的图 16 所示。

2. 数据构建过程涉及人工验证信息，以确保生成的内容符合医学逻辑。例如，附录图15说明了模拟COVID-19患者的应用医学知识。

在这里插入图片描述

3. 在诊断和治疗过程结束时，患者提供有关其健康状况的反馈或更新，以便采取后续行动。为了准确模拟疾病的动态进展，

医生的方案数据从哪里来？
医疗文档数据集。医生代理也通过学习来提升自己，所以我们收集了一些关于呼吸系统疾病的医学新闻/教科书数据集。这些文档被用来生成多项选择题作为模拟医疗数据集。虽然与模拟医疗数据集的选择来自预定义的集合（例如，诊断选择是提到的八种疾病）不同，但这里的多项选择题都是LLM生成的。该数据集被命名为医疗文档数据集。
病历库和经验库。成功的案例被整理并存储在病历库中，作为未来医疗干预的参考。对于治疗失败的情况，医生有责任反思和分析诊断不准确的原因，提炼出指导原则，作为后续处理过程的警示提醒。请注意，我们最终有了两个不断增长的记录库，一个基于实践，一个基于学习，医生可以随时利用它们来诊断患者或回答其他医疗问题。虽然单独使用经验库病历库进行训练时准确率也不断提高，但在测试集上的表现不如同时使用两者
1. 在患者治疗过程中，我们使用密集检索器检索相关的历史医疗记录和指导原则，协助医生为患者提供更好的治疗。随着经验和记录的积累，它们会被积极应用，病历库和经验库也会不断更新。其中包括医院实践中的历史病历和医疗文件中的示范病例。该库以问题-答案对的形式构建，其中问题详细说明了需要做出决策的医疗状况，答案则包含经过验证的答复和思维链。如图 5 上半部分所示，对于医生代理生成的每个答案，如果答案是正确的，则问题-答案对将被添加到医疗记录库中。
2. 医疗任务很多，所以每种任务应该有自己的查询库。为了检索不同的任务，并创建query，他们将医院的visit分成三部分，在回答问题时，根据这三部分的查询来记录思维链：
1. Examination：symptoms
2. Diagnosis：symptoms and examination results
3. Treatment ：symptoms, examination results, and possible treatment plan
学习机制。除了通过临床实践提高自身技能外，医生代理人还通过在工作时间之外阅读医疗文献来主动积累知识。这个过程主要涉及到避免智能体参数化知识学习的策略，我们也会在第4节介绍
利用医疗文档生成的问题来构建额外的记录库，供医生代理人学习一般医学知识。正确的问答对也会添加到学习记录库中，并将用于一般医疗相关任务。
MedAgent-Zero 方法概述。该图说明了医生实现自我进化的方法：1）积累实例，总结经验； 2）将正确答案直接添加到示例库中； 3）总结错误反应的经验并重新测试； 4）将成功经验进一步抽象后纳入经验库； 5）在推理过程中利用两个库检索最相似的内容进行推理。
评估：
目的：评估模拟数据集Simulated Medical Datase有效性(限制在8种疾病中，前两个任务是选择题，最后一个开发题分为三种级别再评估)（准确性）
1. 多项选择的形式，其性能比生成更容易衡量任务。因此，我们也以这种方式格式化一些有代表性的医疗任务来评估医疗代理人的能力，包括检查判断、诊断和治疗计划。
2. 值得注意的是，我们的方法论侧重于如何增强医生（医生）代理人。我们在这里定义了三项医疗任务：
1. (1) 检查决定：患者代理人讲述她/他的症状，医生代理人应从可用选项中选择一项体检。由于每种疾病都有多种检查选项，如果医生代理人选择的检查在真实列表中，则可以视为正确答案。
2. (2)诊断：医生根据患者的症状和体检结果，对患者做出诊断。提示中包含了所有候选疾病，只有生成的疾病名称与患者的实际疾病相同，医生代理的答案才是正确的。
3. (3)治疗方案：医生应根据患者的症状和诊断结果，制定适合患者的治疗方案。为了避免输出多样化难以评估，所有疾病都分为三个治疗级别，即轻度、中度和重度。如果输出与基本事实相符，则答案是正确的。

3. 体系
  1. 评估指标。我们提出了一种评估策略来评估代理医院的医生代理，其具有三个主要能力：
    1. 医疗评估
      1. 首先，对每个智能体进行体检任务测试，旨在根据患者症状从 16 名候选者中选择体检对象。如果选择与适合患者的适当医疗检查的预定义基本事实中的任何项目相匹配，则认为该选择是正确的。
    2. 诊断
      1. 其次，根据患者的症状和体检结果，提示智能体从八种疾病中选择正确的一种，从而评估智能体的疾病诊断技能。
    3. 治疗推荐。
      1. 最后，要求代理人根据患者的症状和检查结果推荐最合适的治疗方案，并从轻、中、重度三种治疗方案中进行选择。准确性被用作评估代理在每项任务上的表现的指标。
    4. 注意，这些指标旨在整体链接以复制现实世界中观察到的顺序决策过程，因为前一阶段的结果会影响下一阶段。特别是，由于治疗方案与诊断结果高度相关，一旦诊断错误，治疗结果就会被视为不正确。

目的：评估真实数据集有效性
1. 任务：将我们的方法与 MedQA [7] 上的其他基线进行比较，MedQA 是一个广泛认可的权威医学回答数据集。 MedQA 包括多项选择格式的问题，反映了用于评估医疗专家能力的医疗执照考试问题。
2. 由于我们目前在代理医院仅生成有关呼吸道的疾病，例如COVID-19和甲型流感，因此我们仅从GPT-3.5的MedQA测试集中选择相关问题。最后，有一个由 72 个问题组成的子集，我们进一步的实验是在这个数据集上进行的。