大语言模型的智能体优化全面综述：背景、有参优化、无参优化、数据基准、应用、挑战

本文链接：https://blog.csdn.net/m0_59235245/article/details/147341192

大语言模型虽发展迅速，但用于智能体时在规划、记忆、适应环境等方面存在不足。文章系统回顾基于大语言模型的智能体优化方法，分为参数驱动（含传统微调、基于强化学习及混合优化）和无参数优化（包括基于经验、反馈、工具、检索增强生成、多智能体协作优化），介绍相关数据集、应用，分析挑战并给出未来研究方向。

摘要&解读

随着大语言模型（LLMs）的迅速发展，基于大语言模型的智能体已在各个领域得到广泛应用，成为自主决策和交互任务的关键。然而，目前的工作通常依赖于对基础大语言模型应用提示设计或微调策略，这在复杂的智能体相关环境中往往导致效果有限或性能欠佳。尽管大语言模型优化技术可以提升模型在许多通用任务上的表现，但它们缺乏针对智能体关键功能（如长期规划、动态环境交互和复杂决策）的专门优化。虽然最近有大量研究探索了各种策略来优化基于大语言模型的智能体以完成复杂的智能体任务，但从整体视角对这些方法进行系统回顾、总结和比较的研究仍然缺失。在这篇综述中，我们全面回顾了基于大语言模型的智能体优化方法，并将其分为参数驱动和无参数方法。我们首先关注参数驱动优化，涵盖基于微调的优化、基于强化学习的优化以及混合策略，分析轨迹数据构建、微调技术、奖励函数设计和优化算法等关键方面。此外，我们简要讨论通过提示工程和外部知识检索来优化智能体行为的无参数策略。最后，我们总结了用于评估和调整的数据集及基准，回顾了基于大语言模型的智能体的关键应用，并讨论了主要挑战和有前景的未来研究方向。相关参考文献的资源库可在https://github.com/YoungDubbyDu/LLM-Agent-Optimization获取。

• 研究背景： 大语言模型用于智能体时存在长期规划、内存容量、环境适应性等方面的局限，现有大语言模型优化技术缺乏针对智能体关键功能的专门优化。
• 研究贡献： 系统梳理基于大语言模型的智能体优化方法，提出参数驱动和无参数优化分类，为该领域研究提供清晰框架；分析各类优化方法优缺点，为后续研究提供参考。
• 实现设计： 参数驱动优化包括基于传统微调（轨迹数据构建、基于轨迹微调）、基于强化学习（奖励函数优化、偏好对齐优化）、混合微调优化；无参数优化有基于经验、反馈、工具、检索增强生成、多智能体协作优化等方式。

1 引言

自主智能体的发展一直是人工智能（AI）领域的长期追求。人工智能智能体已从早期基于规则和专家系统的架构发展到强化学习（RL）驱动的智能体，如今强化学习驱动的智能体已广泛应用于许多领域。传统的基于强化学习的智能体通过与环境的交互来优化策略，使用结构化的奖励函数来实现目标，并随着时间的推移提高性能。然而，这些方法通常需要大量的训练，依赖于定义明确的状态 - 动作空间，并且在跨不同任务的泛化方面存在困难。

近年来，像GPT-4、PaLM 2和Deepseekr1这样的大语言模型取得了显著成功，在语言理解、推理、规划和复杂决策方面展现出卓越的能力。基于这些优势，大语言模型可以作为智能体，为改进自主决策和实现通用人工智能（AGI）提供了一条有前景的途径。与传统的基于强化学习的智能体不同，基于大语言模型的智能体通过基于文本的指令、提示模板和上下文学习（ICL）进行操作，具有更大的灵活性和泛化性。这些智能体利用大语言模型的理解和推理能力，通过自然语言与环境进行交互，执行复杂的多步骤任务，并动态适应不断变化的场景。现有的基于大语言模型的智能体利用任务分解、自我反思、记忆增强和多智能体协作等各种方法，在软件开发、数学推理、具身智能、网页导航等一系列领域中实现了高性能。

然而，尽管大语言模型具有诸多优势，但它们并非天生为自主决策和长期任务而设计。它们的训练目标侧重于下一个词的预测，而不是智能体任务所需的推理、规划或交互学习，因此在以智能体为中心的任务上缺乏明确的训练。因此，在复杂环境中部署基于大语言模型的智能体存在几个关键挑战：1）基于大语言模型的智能体在长期规划和多步推理方面存在困难，因为它们生成的内容可能会在长时间的交互中导致任务不一致或错误累积。2）大语言模型有限的内存容量阻碍了智能体利用过去的经验进行反思，导致决策不佳和任务性能低下。3）基于大语言模型的智能体对新环境的适应性受到限制，因为它们主要依赖于预训练的知识或固定的上下文，限制了它们处理动态场景的能力。这些限制在开源大语言模型中尤为明显，开源大语言模型在特定于智能体的能力方面落后于像GPT-4这样的专有模型。此外，闭源大语言模型的高成本和缺乏透明度凸显了优化开源大语言模型以增强智能体能力的必要性。

现有的技术，如监督微调（SFT）和基于人类反馈的强化学习（RLHF），在提高大语言模型在指令遵循任务方面的性能方面取得了显著进展，但它们未能完全解决基于大语言模型的智能体在决策、长期规划和适应性方面的挑战。优化基于大语言模型的智能体需要更深入地理解动态环境和智能体行为，这需要设计超越传统大语言模型微调提示工程方法的专门技术。为了解决这些挑战，最近的许多研究探索了各种策略来优化基于大语言模型的智能体，以完成复杂的智能体任务。这些方法确保智能体能够在不同环境中进行泛化，根据反馈优化策略，并有效利用工具、记忆和检索机制等外部资源。

在本文中，我们对基于大语言模型的智能体优化进行了全面的综述，系统地将方法分为参数驱动和无参数优化策略。我们的工作侧重于用于优化智能体能力（如智能体调优、强化学习等）以提高智能体性能的技术方法。具体而言，参数驱动优化通过优化大语言模型的参数来提升智能体性能。这一类别包括传统的微调方法，涵盖智能体轨迹数据构建和微调策略等关键阶段。此外，我们探索了基于强化学习的优化，它分为两个不同的优化方向：基于奖励函数的方法，利用像演员 - 评论家（Actor-Critic）和近端策略优化（PPO）这样的传统强化学习技术；基于偏好对齐的方法，利用直接偏好优化（DPO）使智能体策略与人类偏好或特定任务目标同步。最后，我们讨论混合微调优化策略，这是一个新兴领域，它将监督微调与强化学习相结合，迭代地优化智能体行为。相比之下，我们还简要概述了无参数优化方法，这些方法专注于在不修改模型参数的情况下改善智能体行为。这些方法利用提示工程、上下文学习和检索增强生成（RAG），将各种类型的信息整合到提示中以指导智能体的行动。它们被分为基于反馈的优化、基于经验的优化、基于工具的优化、检索增强优化和多智能体协作优化。

1.1 与相关综述的比较

尽管对基于大语言模型的智能体的研究兴趣日益增长，但现有的综述主要集中在大语言模型的通用优化或特定的智能体能力（如规划、记忆和角色扮演）上，没有将基于大语言模型的智能体优化视为一个独特的研究领域。关于大语言模型优化的综述主要涵盖微调以及自我进化方法，但缺乏对智能体能力所需的专门优化的讨论。另一方面，现有的与智能体相关的综述通常根据架构组件（如规划、记忆或多智能体协调）对研究进行分类，而不是系统地总结用于优化基于大语言模型的智能体行为和性能的技术。相比之下，这项工作是对基于大语言模型的智能体优化技术的首次综述，有助于更清晰地理解和比较现有方法，并为未来的研究提供方向。

1.2 综述的范围和依据

\1. 我们仅综述基于大语言模型的智能体优化算法，以提高智能体在解决问题和决策等任务中的性能，涵盖参数驱动和无参数方法。我们排除以大语言模型的通用效率、角色扮演或对话为中心的研究。
\2. 我们选择的论文来自人工智能和自然语言处理领域的会议和期刊，以及arXiv上最近具有高影响力的预印本，以确保涵盖最新的进展。
\3. 我们关注2022年以来发表的研究，以反映基于大语言模型的智能体优化的最新进展。

1.3 综述的结构

本文的结构示意图如图1所示。第2节提供背景知识和相关概念。在第3节中，我们系统地回顾了通过修改大语言模型参数来增强智能体能力的参数驱动优化方法，将其分为三种主要策略：基于微调的优化（§3.1）、基于强化学习的优化（§3.2）和混合优化（§3.3）。第4节总结并分类了现有的无参数优化策略的研究。然后，第5节介绍数据集和基准，第6节回顾了在各个领域的实际应用。最后，第7节突出了挑战和未来的研究方向。

2 背景

2.1 基于强化学习的智能体优化

强化学习长期以来一直是智能体优化的基本方法，它使智能体能够从与环境的交互中学习。当前的强化学习方法主要使用基于价值和基于策略的方法来优化智能体的行为。基于价值的方法，如Q学习，通过优化智能体的动作价值函数来最大化长期奖励。这些方法在离散动作空间中有效，但在高维状态或动作空间中存在困难。基于策略的方法，包括策略梯度，通过根据奖励梯度调整参数直接优化智能体的策略。为了提高稳定性和样本效率，近端策略优化引入了对策略更新的约束，减轻了训练过程中的性能下降。演员 - 评论家方法将价值估计与策略学习相结合，提高了收敛效率和决策的稳健性。除了单智能体设置，多智能体强化学习将强化学习技术扩展到涉及多个交互智能体的场景，实现了合作和竞争动态。

近年来，强化学习也越来越多地应用于使人工智能智能体与人类意图保持一致，特别是在基于偏好的优化中。基于人类反馈的强化学习已成为一种突出的方法，它根据人类提供的信号优化智能体策略，以更好地与期望的行为保持一致。直接偏好优化直接从偏好数据中优化策略，而无需进行奖励建模，提高了一致性和可控性。总体而言，基于强化学习的优化已从早期的基于价值和基于策略的学习发展到更先进的技术，这些技术整合了结构化反馈和多智能体协调，为提高基于大语言模型的智能体的决策能力奠定了基础。

2.2 大语言模型微调

大语言模型微调是一种关键方法，通过优化参数使预训练模型适应特定任务，使其更适合预期的应用。最常用的方法是监督微调，在监督微调中，大语言模型在有标签的数据上进行训练，以提高特定任务的性能。指令调优是监督微调中常用的一种方法，在指令调优中，大语言模型在指令 - 输出对上进一步训练，以增强它们遵循人类命令的能力。另一个主要的发展是参数高效微调（PEFT），包括像P-Tuning、LoRA和QLoRA这样的方法。这些技术调整一小部分参数，在保持大语言模型性能的同时显著降低了微调的计算成本，使其在实际应用中非常高效。此外，基于人类反馈的强化学习已被用于通过整合人类反馈来微调大语言模型，改善它们的决策以及输出与用户偏好的一致性。这些优化技术使大语言模型能够更有效地适应广泛的任务，提高了它们在实际场景中的有效性。

2.3 基于大语言模型的检索增强生成（RAG）

检索增强生成（RAG）将大语言模型与外部信息检索系统相结合，以提高生成输出的相关性和准确性。通过从外部源检索相关文档，检索增强生成使大语言模型能够解决模型固有的知识限制问题。检索增强生成方法的发展在检索和生成集成方面取得了显著进展。早期的朴素检索增强生成方法侧重于直接检索相关文档以增强生成过程，提高了在需要事实性知识的任务中响应的质量。为了解决朴素检索增强生成的挑战，引入了高级检索增强生成，通过纳入更有效的排序、过滤和文档选择策略来优化检索过程。随后，模块化检索增强生成引入了一个模块化框架，独立优化检索和生成组件。这种模块化方法实现了特定任务的优化，在不同领域的应用中提供了更大的灵活性和可扩展性。检索增强生成的这些进展凸显了其通过动态访问外部知识来增强大语言模型的潜力，使它们更具适应性，能够在实际场景中处理复杂任务。

3 基于大语言模型的智能体的参数驱动优化

3.1 基于传统微调的优化

基于传统微调的智能体优化涉及通过各种微调技术（如指令调优和参数高效微调）来调整预训练大语言模型的参数。用于微调的轨迹通常以监督微调的形式构建，并用于调整智能体的参数，使其更好地与特定任务的要求保持一致。优化过程通常包括两个主要步骤：1）构建适合智能体任务的高质量轨迹数据；2）使用这些轨迹数据对基于大语言模型的智能体进行微调，完整的过程如图2所示。先前的研究表明，训练数据的质量对模型性能有显著影响，这凸显了生成、过滤和有效利用高质量轨迹的重要性。这使得轨迹构建成为微调流程中的关键步骤，直接影响基于大语言模型的智能体的整体性能。

在表1中，我们全面概述了基于微调的智能体优化方法，突出了每项研究中使用的数据处理技术和微调策略。需要注意的是，本节不包括涉及强化学习或偏好对齐技术（如直接偏好优化、近端策略优化）的微调方法，这些方法将在§3.2中讨论。相反，在本节中，我们仅关注现有研究中应用的传统大语言模型微调技术部分，旨在清晰地介绍基于传统微调的智能体优化工作流程的每个阶段。

3.1.1 智能体微调的轨迹数据构建

高质量轨迹的构建是对基于大语言模型的智能体进行微调之前的关键步骤，其目的是赋予大语言模型智能体能力。这个过程包括轨迹数据的生成，然后进行评估和过滤，以及对低质量样本的潜在利用，以构建符合有效微调要求的精炼数据。

\1. 数据获取和生成：高质量轨迹数据的构建始于初始数据的获取和生成，这不仅需要多样化的轨迹，还需要与目标任务充分对齐，以确保有效的学习。获取和生成此类数据的方法通常可以分为四大类：专家标注数据、强大的大语言模型生成的轨迹、自我探索环境交互轨迹以及基于多智能体协作的构建。在这里，我们介绍每一类数据的利用和构建过程，并回顾相关研究。
- • 专家标注数据：专家标注的轨迹是指由人类专家手动制作的高质量数据集，通常被视为微调的黄金标准。这些数据确保了任务的可靠性和一致性，因为专家可以精心设计和标注针对特定情况的轨迹。许多研究使用ReAct风格的专家轨迹作为初始数据集，数据包括思考、观察和行动，这使智能体能够更有效地模仿专家的决策过程。例如，IPR利用这些轨迹帮助智能体获得基本技能。同样，ETO和AGILE将思维链（Chain of Thought）方法应用于专家轨迹进行模仿学习，强化特定任务的行为。为了确保与预训练大语言模型的领域对齐，Agent-FLAN将ReAct风格的专家轨迹转换为多轮对话，将对话分割为不同的特定任务轮次，如指令遵循和推理。StepAgent引入了一个两阶段学习过程，智能体首先观察其策略与专家轨迹之间的差异，然后迭代地改进其行动。此外，AgentOhana将异构的智能体专家轨迹标准化为统一格式，以提高数据的一致性。尽管这些数据集具有可靠性且与特定任务一致，但它们资源密集且缺乏可扩展性，因此通常需要用其他数据获取方法进行补充，以增强数据集的多样性。
- • 强大的大语言模型生成的轨迹：强大的大语言模型生成的轨迹利用像ChatGPT和GPT-4这样强大的大语言模型自主生成特定任务的数据。这些轨迹通常由ReAct和思维链等推理框架生成，使模型能够与环境交互并模拟推理、决策和行动的过程。AgentTuning和FireAct采用ReAct和思维链来指导智能体行为，同时结合Reflexion的改进，提高了生成数据的多样性。一些研究集成了工具和结构化注释来增强轨迹的信息性。NAT在不同的温度设置下生成多个轨迹，使用ReAct提示，并在交互过程中集成计算器和API等工具。Agent Lumos利用GPT-4和GPT-4V在规划和基础模块中对数据集进行注释，生成LUMOS-I和LUMOS-O风格的数据。其他方法探索多角色模拟以丰富轨迹的复杂性。Zhou等人使用GPT-4模拟问题生成器、行动规划器和环境智能体，实现迭代交互驱动的数据生成。AGENTBANK也利用GPT-4生成环境交互数据，利用GPT-3.5生成思维链推理，并最终将数据转换为聊天机器人风格的格式，以提高可用性。
- • 自我探索环境交互轨迹：鉴于专家标注和像GPT-4这样的专有模型的高成本，使用开源模型的自我探索方法已成为生成轨迹数据的常用方法。这些方法使智能体能够与环境交互，并通过自主探索、基于反馈的学习和自训练生成轨迹，从而减少对手动标注的依赖。早期的方法侧重于直接探索和与环境交互。例如，SWIFTSAGE利用更长的轨迹历史表示来选择性地采样动作，并构建简洁的训练数据集。同样，Aksitov等人应用Reflexion提出的ReAct智能体来优化轨迹，确保更好的任务对齐。在此基础上，最近的方法纳入了反馈机制和自我反思来优化轨迹质量。ENVISIONS允许智能体通过自我纠正和自我奖励机制探索和优化它们的轨迹。STE模拟工具使用和API交互，将反馈和经验存储为记忆，以增强轨迹学习。其他方法侧重于利用额外的模型进行反思和纠正。ADASWITCH采用混合设置，由本地部署的大语言模型执行任务，云基大语言模型纠正错误，并将优化后的行动集成到结构化数据集中。Re-ReST使用反射器模型迭代地优化轨迹输出，使其更符合任务要求。此外，NLRL引入了一种创新的视角，使用自然语言表示强化学习优化过程，如文本风格的策略、价值函数和反馈，使智能体能够通过强化学习视角与环境交互并生成轨迹数据。
- • 基于多智能体协作的构建：多智能体协作框架通过实现更丰富的交互和协调动态，克服了单智能体方法的局限性，从而产生更多样化和稳健的轨迹数据。尽管这些方法通常也依赖强大的大语言模型或与环境的自我探索，但多智能体设计引入了独特的机制，强调协作动态和模块化任务执行，使其值得单独讨论。大多数基于多智能体协作的方法为每个智能体分配不同的角色，使它们能够通过顺序或交替迭代过程协作生成或优化轨迹数据。在SMART中，智能体依次扮演意图重建器、知识检索器、事实定位器和响应生成器的角色，协作生成全面的答案，并构建涵盖短期和长期交互的轨迹数据集。同样，COEVOL采用两阶段辩论机制生成初始数据，并由充当顾问、编辑和评委的智能体对其进行评估和优化，以确保高质量的输出。Self-Talk使大语言模型能够模拟不同角色之间的对话，生成反映多种观点的训练数据。为了增强数据的稳健性，ATM纳入了对抗性交互，攻击者干扰检索增强生成（RAG）检索到的信息，而生成器则生成对这些干扰具有鲁棒性的响应。通过在智能体之间分配任务并促进顺序或交叉优化，多智能体协作框架通过提高数据粒度、多样性和适应性来增强轨迹生成。
- • 总结：数据获取和生成策略在优化基于大语言模型的智能体方面起着至关重要的作用，它们提供了不同的构建轨迹数据的方法，每种方法都有其独特的优缺点，如表2所示。专家标注数据确保了高可靠性和准确性，但劳动强度大且成本高，大规模收集具有挑战性。因此，它们通常与其他数据源集成，以平衡质量和效率。强大的大语言模型生成的轨迹通过利用像GPT-4这样强大的模型解决了可扩展性问题，但对这些先进模型的依赖导致了API使用或计算资源的高成本。此外，它们的质量取决于大语言模型的内在推理能力，需要进一步优化以减轻模型偏差。自我探索方法使智能体能够与环境交互并自主生成特定任务的数据，减少了对人工监督或闭源大语言模型的依赖。然而，由于模型在探索方面的能力有限，它们通常会产生大量低质量或失败的轨迹，需要进行有效的过滤以提取用于微调的有用数据。多智能体协作框架通过任务分配和迭代优化提高了数据的多样性和适应性。然而，它们严重依赖智能体之间的有效协调，这使得系统在结构上不稳定，并增加了设计复杂性。此外，随着涉及的智能体增多，总体成本也会上升。每种数据获取方法的适用性取决于特定的任务要求，因为不同的方法在质量、可扩展性和复杂性方面提供了不同的权衡。应根据研究需求选择合适的策略，未来探索集成多种方法的混合策略有助于发挥各自的优势。
\2. 数据评估和过滤：轨迹数据生成后，评估和过滤数据对于确保其质量和适合微调至关重要。尽管专家标注的数据集通常因其初始质量高而可直接使用，但其他类型的轨迹通常需要进一步优化。这些过程涉及根据预定义的标准、外部反馈或基于模型的评分来评估轨迹，然后对数据进行过滤或纠正，以使其与特定的微调目标一致。我们将数据评估和过滤方法分为三种主要类型：基于环境的评估、基于人类或规则的评估以及基于模型的评估。
- • 基于环境的评估：基于环境的方法依赖于来自环境的外部反馈来评估生成轨迹的质量和成功程度。这些方法通常利用环境奖励或任务完成指标来评估智能体的行动，并过滤和优化轨迹数据。这一类别中的大多数研究采用一种二元反馈形式，即根据智能体的行动相对于期望任务的成功或失败来分配奖励。AgentTuning、ENVISIONS和FireAct使用基于环境的奖励来评估轨迹的成功与否，依赖于环境信号或正确性评估。同样，NAT也采用基于环境的二元奖励系统，区分成功和不成功的结果，鼓励智能体从失败中学习。
- • 基于人类或规则的评估：基于人类或规则的评估方法依赖于预定义的标准或自定义规则来评估轨迹数据的质量。这些规则可以基于各种指标，如任务性能、数据多样性或一致性，并且可以进行调整以满足不同任务的特定要求。许多研究依赖于人工标注或手动审查来评估和过滤轨迹数据，以确保准确性并与预定义的标准一致。在[216]中，应用手动过滤以确保环境智能体的反馈与行动者的行动之间的逻辑一致性。同样，Agent Lumos利用事实真相进行评估和过滤，并确保最终响应符合任务性能的既定标准。困惑度（PPL）被用作过滤标准，选择困惑度最低的样本以与任务目标保持一致。相比之下，一些方法引入了考虑数据多个维度的自定义评估标准。Self-Talk使用自动化指标基于对话多样性、子目标完成情况和角色一致性通过不同的过滤器来评估数据。ENVISIONS设计了一个奖励函数，根据序列输出概率对生成的轨迹进行排名。OPTIMA在其自定义奖励函数中平衡任务性能、令牌效率和自然语言可读性，并选择前K个轨迹。
- • 基于模型的评估：基于模型的方法利用预训练的大语言模型（例如GPT-3.5/4）通过模型驱动的评估机制自动评估轨迹质量。这些方法利用模型的推理能力对相关性、准确性和完整性进行多维度分析。这确保了轨迹与任务的一致性，同时为数据构建建立了一个全面的质量保证框架。一些方法利用大语言模型的推理和评分能力直接选择最相关和正确的轨迹。[3]引入了一种排名方法，使用微调的PaLM 2-L模型根据结果对多个样本进行排序，选择排名最高的样本进行进一步处理。STE使用GPT-4评估关于API的示例、模拟工具交互的有效性。ADASWITCH使用大语言模型投票验证器或roberta-large-mnli来检查每个步骤的正确性并进行相应调整。其他方法侧重于评估整个轨迹，而不仅仅是输入-输出对。AgentOhana使用AgentRater系统在0 - 5的量表上评估轨迹，评估过程完整性和结果有效性，仅保留得分≥4的轨迹，以确保全面的逻辑一致性。此外，COEVOL使用GPT-3.5进行多维度质量评估，在有用性、相关性、准确性和粒度方面对原始轨迹和处理后的轨迹进行比较评估，以实现最佳的数据选择。
- • 总结：在轨迹数据的评估和过滤中，不同的策略具有明显的优缺点，如表3所示。基于环境的评估方法易于实施，因为它们依赖于基于任务成功或失败的明确二元反馈。然而，这些方法主要关注最终结果，其离散的二元奖励限制了反馈的粒度，可能会掩盖轨迹生成过程中的推理错误。一种更稳健的方法是开发基于过程的奖励，跟踪决策步骤并提供更具信息性的评估信号。基于人类或规则的方法提供了适应性强且特定于任务的评估，具有高精度，但需要复杂的设计和人工监督。基于模型的方法实现了完全自动化的评估，具有丰富的可解释性，减少了人工工作量，但其有效性受到评估模型中固有的偏差和错误的限制。每种方法在可扩展性、准确性和实施复杂性方面都存在权衡，需要根据智能体任务的具体需求进行仔细选择和设计。此外，在混合策略中集成多种方法可以进一步提高数据质量和稳健性，确保针对不同任务需求的更可靠的评估框架。
\3. 低质量数据的利用：利用低质量数据已成为扩充训练数据集的有效策略。早期的方法主要依赖专家标注或成功的轨迹数据，导致可用轨迹的利用不足。然而，失败的样本也包含潜在的指导价值，使智能体能够从成功和错误的案例中学习，这增强了决策的稳健性和泛化能力。一些研究通过将成功轨迹与失败轨迹配对创建对比数据集，使智能体能够从正确和错误的行为中学习。ENVISIONS将低质量轨迹与正确解决方案配对，创建正负样本对进行训练，增强了智能体区分正确和错误行动的能力。同样，AgentGym、IPR和ETO生成基于偏好的轨迹对，并应用直接偏好优化来优化智能体策略。其他方法侧重于纠正低质量样本以提高训练数据质量。AGENTBANK优化失败的轨迹以重新生成交互，从而优化数据集。Re-ReST利用训练好的反射器模型，根据事实真相、环境反馈和特定任务信息迭代地纠正低质量数据。ADASWITCH也采用迭代纠正过程，通过混合方法，由一个小型本地模型生成任务步骤，云基大型模型纠正错误，然后将优化后的数据重新集成到数据集中。除了这些纠正方法，一些方法直接利用错误样本教模型识别和理解失败场景。Agent-FLAN将经常遇到的负样本纳入上下文，明确教导模型应避免哪些行动，从而减少幻觉。NAT利用修改后的指令提示生成错误响应，增强模型区分有效和无效输出的能力。
- • 总结：利用低质量数据通过从失败案例中提取有用信息为增强智能体学习提供了一种途径。对比方法提高了对正确和错误行动的区分能力，基于纠正的方法优化了训练数据集以实现更准确的学习，直接利用错误的策略增强了对失败的鲁棒性。然而，确保自我生成的失败案例的一致性和可靠性、最小化纠正过程中的偏差以及平衡错误利用与防止不良学习效果需要仔细而严格的设计。

3.1.2 基于轨迹的智能体微调

微调是基于大语言模型的智能体优化过程中的关键步骤，使开源大语言模型能够适应特定的智能体任务或数据分布。这里使用的大多数技术基于大语言模型中常用的微调方法，但专门应用于与智能体相关的数据（在§3.1.1中构建），以增强基于大语言模型的智能体的决策和任务解决能力。

\1. 通用指令与智能体轨迹的混合：一些研究表明，仅在特定于智能体的轨迹数据上对基于大语言模型的智能体进行微调可能会削弱其通用语言理解和推理能力。为了缓解这个问题，许多研究在微调过程中混合使用通用指令数据集和特定任务的轨迹数据，这确保了大语言模型在针对特定智能体任务进行优化的同时保留基本能力。AgentTuning将AgentInstruct数据集与通用指令数据相结合，使用指令调优对LLaMA-2模型进行微调，确保特定任务的一致性和基础语言能力。AGENTBANK将智能体轨迹数据、通用指令数据和代码数据集集成，为多样化的任务优化LLaMA-2-Chat模型。同样，Zhou等人将智能体轨迹数据集和通用指令数据集混合，通过LoRA对OpenChat和Llama-2系列模型进行微调。总之，数据混合策略使微调后的基于大语言模型的智能体能够保留基本和复杂的智能体能力，平衡通用语言理解与特定任务优化，以提高通用性和稳健性。
\2. 微调技术的使用：基于对基于大语言模型的智能体的研究，我们将微调方法分为三种类型：标准监督微调、参数高效微调（例如LoRA）以及针对特定任务定制的策略，下面将详细讨论。
- • 标准监督微调：在基于大语言模型的智能体中，监督微调的目标是通过最小化预测输出与目标输出之间的差异，使预训练模型与特定任务要求保持一致，通常以指令 - 输出对或轨迹数据集的形式。在本节中，我们定义并分类标准监督微调，包括使用高质量训练数据进行全参数微调（全量微调）和指令调优的研究。我们还将那些直接提及使用基于监督微调的方法但未提供进一步技术细节的研究归类为标准监督微调类别。此外，鉴于模仿学习中的行为克隆与监督微调范式一致，我们也将其纳入此类别，以提供更全面的概述。大多数研究使用标准监督微调，利用高质量数据集对基于大语言模型的智能体进行微调。AgentTuning、Agent-FLAN和AGENTBANK对基于Llama的模型进行微调，依赖指令数据使模型与特定任务要求保持一致。同样，NAT、STE和COEVOL利用为任务成功和失败场景精心策划的轨迹数据集，采用监督微调来优化Llama2-Chat或Mistral-Instruct等模型。此外，AGILE、Retrospex、AgentGym、ETO和ToRA采用基于模仿学习的监督微调（行为克隆），为大语言模型配备基本的智能体能力，使其能够更好地处理特定于智能体的任务。标准监督微调仍然是对基于大语言模型的智能体进行微调的广泛采用的方法，利用指令数据、轨迹数据集和行为示例等多样化的数据集。其简单性和有效性使其成为智能体优化的基础方法，特别是在使模型与特定任务要求保持一致方面。
- • 参数高效微调：参数高效微调方法，如LoRA和QLoRA，仅优化一小部分参数，同时冻结模型的大部分参数。这些技术显著降低了计算和内存成本，使其成为微调大规模大语言模型的理想选择。通过专注于特定任务相关的参数，参数高效微调方法在提高效率的同时实现了与全参数优化相当的性能。一些研究采用参数高效微调来优化基于大语言模型的智能体。例如，SMART、FireAct、Re-ReST和Agent Lumos使用LoRA对Llama-2和LLaMA-3系列、OpenChat-v3.2和CodeLlama等模型进行微调。这些研究设置了各种配置，包括聊天和指令版本以及不同的参数大小，有效地使模型与特定任务要求保持一致。此外，AgentOhana应用QLoRA来优化xLAM-v0.1模型，展示了其在资源受限情况下高效微调大型模型的能力。总之，参数高效微调为优化基于大语言模型的智能体提供了一种实用的解决方案，在资源受限的场景中平衡了性能和效率。
- • 定制微调：定制微调方法是针对特定任务或想法量身定制的，结合了独特的策略或目标函数，以使模型更好地与特定于智能体的要求保持一致。这些方法通常包括特定任务的修改，例如将轨迹数据与指令数据集相结合，或引入额外的约束，如正则化项。ATM设计了多智能体迭代调优优化（MITO）损失，将标准监督微调与KL正则化相结合，以平衡特定任务优化和泛化，对Llama-2-7B进行微调。ENVISIONS利用对比学习和无强化学习优化，通过对动态更新的轨迹对进行循环微调，实现了对Llama-2的高效迭代优化。这些定制微调策略突出了通过集成与任务相关的目标和迭代优化过程，使大语言模型适应特定于智能体任务的灵活性。
- • 总结：基于传统微调的优化通过利用高质量轨迹数据、不同的训练方法和高效的参数调整，有效地增强了基于大语言模型的智能体。这种方法确保了强大的任务一致性、可控的优化以及对特定目标的适应性，使其成为优化智能体行为的可靠方法。然而，它也面临着影响其有效性和适应性的固有局限性。这些方法严重依赖高质量轨迹数据，性能取决于数据的可用性和整理。诸如错误积累、过度拟合特定数据集以及难以适应动态环境等挑战可能会阻碍在不同任务中的泛化。此外，微调主要使模型与静态目标保持一致，缺乏交互式反馈机制，限制了智能体根据实时任务执行优化其行为的能力。随着基于大语言模型的智能体需要处理越来越复杂和不断发展的任务，探索更具适应性的优化策略对于进一步增强其决策能力至关重要。

3.2 基于强化学习的优化

为了缓解传统微调的局限性，基于强化学习的优化方法作为一种有前景的方法出现，它使基于大语言模型的智能体能够直接从与环境/人类反馈的交互中学习，并利用奖励和惩罚动态地优化行为。与静态微调不同，强化学习技术鼓励探索性学习，使智能体能够发现新的策略并适应未知任务或动态条件。通过使模型输出与明确的奖励或与人类一致的偏好保持一致，它们不仅提高了特定任务的性能，还在复杂、不断变化的环境中培养了更大的灵活性和稳健性。

我们将基于强化学习的优化方法分为两种主要类型：基于奖励函数的优化和基于偏好对齐的优化。前者利用传统的强化学习技术，如近端策略优化，通过明确定义的奖励信号指导迭代学习过程。相比之下，后者侧重于像直接偏好优化这样的新方法，依赖于偏好数据集使模型输出与人类偏好保持一致，无需传统的奖励建模。这两种方法的工作流程如图3所示。

3.2.1基于奖励函数的优化

基于奖励函数的优化方法利用明确的奖励信号来优化基于大语言模型（LLM）的智能体的行为，使其能够适应复杂任务和动态环境。借鉴传统的强化学习范式，这些方法采用诸如近端策略优化（PPO）或演员-评论家（Actor-Critic）等算法，迭代地优化智能体的策略并调整LLM的参数。通过将LLM本身视为智能体，这些方法利用多种奖励来源，包括环境反馈、模型生成的信号和定制的奖励函数，如表4所示。在这部分内容中，我们根据奖励信号的性质和构建方式，对代表性的研究进行分类总结。

\1. 基于环境的奖励：最常见的方法之一是利用环境反馈作为主要奖励来源。例如，CMAT在多智能体协作设置中采用演员 - 评论家框架，智能体在其中自适应地与环境交互，并从任务性能和交互结果中获得奖励。Retrospex在离线强化学习框架中采用隐式Q学习，通过最小化固定环境轨迹上的时间差分（TD）误差来减轻Q函数高估。这种方法通过将价值估计限制在经验观察到的状态 - 行动对中，稳定了策略更新。AgentGym使用AgentEvol算法进行自我优化，该算法包括一个基于环境轨迹奖励的优化目标函数。此外，AGILE将行动正确性与为专家协助请求设计的奖励相结合。通过将这些明确的反馈信号与近端策略优化结合使用，AGILE优化了智能体独立解决问题和及时寻求外部专家帮助的能力。基于环境的奖励很容易获得，因为它们直接依赖于来自环境的任务反馈。然而，这些奖励通常是离散的且以结果为导向，这可能会限制它们在复杂任务的中间步骤中提供详细指导的能力。
\2. 基于模型的奖励：基于模型的奖励从大语言模型或训练用于评估智能体行为的模型中获取信号，提供隐式或显式反馈以指导策略优化。这些方法在直接环境奖励稀少或不可用的场景中特别有用。StepAgent利用逆强化学习（IRL）框架，其中判别器预测智能体轨迹与专家行为一致的可能性，并将其作为奖励信号。它通过比较专家和智能体的行动来进行逐步优化，生成细粒度的中间奖励，实现步骤级别的调整。此外，Jensen-Shannon（JS）散度确保智能体的行为与专家轨迹保持接近，同时判别器区分两者，形成类似于对抗网络的结构。另外，WebRL训练一个自监督的最优奖励模型（ORM）来评估轨迹质量并生成隐式反馈。使用演员 - 评论家框架，模型根据ORM生成的奖励更新策略权重，同时整合Kullback-Leibler（KL）散度约束，以在迭代更新中保持策略稳定性。总之，基于模型的奖励通过将奖励生成与直接环境反馈解耦，提供了灵活性，允许进行特定任务的评估。然而，它们的有效性取决于奖励模型的稳健性，这需要仔细设计和优化。
\3. 定制奖励函数：定制奖励函数是针对特定任务量身定制的，使研究人员能够设计多目标信号，在多个维度上优化智能体行为。这些函数通常超越任务成功率，纳入额外目标，如策略稳定性、协作效率和特定任务性能。GELI将全局显式奖励（GE）（如会话级用户满意度）与从多模态信号中得出的局部隐式反馈（LI）相结合。这种多目标设计将奖励分解为细粒度的组件，通过近端策略优化更有效地优化长期对话目标。同样，AGILE使用专门的奖励函数来指导智能体寻求专家帮助。通过整合二元任务成功指标和基于成本的专家查询惩罚，AGILE激励高效的问题解决，同时最小化资源使用。CORY在多智能体框架中设计共享奖励，其中领导者和观察者交替角色以优化行为。KL散度约束用于最小化策略偏差，确保更新过程中的稳定性。尽管CORY使用近端策略优化，但该框架与其他强化学习算法兼容，增强了其通用性。为了优化生成输出中的置信度估计，SaySelf引入了一个奖励函数，强调答案准确性并惩罚错误预测中的过度自信。通过近端策略优化，该设计减少了误导性输出，确保在不确定性下决策的稳健性。这些定制奖励函数方法展示了基于强化学习的框架对复杂现实世界挑战的适应性，展示了满足不同智能体优化需求的创新奖励设计方法。
\4. 总结：基于奖励函数的优化方法利用传统强化学习算法，通过明确的奖励信号迭代优化基于大语言模型的智能体行为。这些方法在使智能体适应复杂任务和动态环境方面是有效的。然而，设计合适的奖励函数需要仔细考虑目标任务，以确保奖励结构涵盖所有相关方面，避免过于狭窄或通用的标准。尽管这些方法有效，但它们面临诸如近端策略优化等算法所需的大量交互数据和计算资源等挑战，这对大规模基于大语言模型的智能体的可扩展性提出了担忧。此外，对辅助模型（如Q学习中的价值函数）的依赖增加了复杂性，需要强大的模型集成和微调。这些挑战凸显了在算法效率和奖励信号设计方面取得进展的必要性。

3.2.2基于偏好对齐的优化

基于偏好对齐的优化提供了一种替代传统强化学习的范式，它通过直接使模型行为与人类或专家的偏好对齐，而不依赖于明确的奖励信号。受基于人类反馈的强化学习（RLHF）的启发，基于偏好对齐的优化借鉴了迭代策略更新和反馈驱动学习等关键要素。通过利用通过成对比较或其他排序机制构建的偏好数据，这些方法优化策略，以更好地反映期望的结果，通过直接偏好优化（DPO）等技术直接优化偏好数据集，简化了流程。直接偏好优化可以被视为一种为离线数据集量身定制的强化学习变体，其中偏好取代了传统的奖励信号来指导策略优化。这种离线优化方法能够在无需在线部署的情况下有效地对智能体进行微调，特别适合大规模基于大语言模型的智能体。优化过程可以分为两个主要阶段：偏好数据构建和策略优化，如下所述。

\1. 偏好数据构建：第一步是构建偏好数据，它以成对比较的形式捕获用户或专家的偏好。这些比较通常表示为元组，其中是输入指令/问题，表示更受偏好或更好（获胜）的响应，代表不太受偏好或次优（失败）的响应。一些研究也使用和分别表示更受偏好和不太受偏好的输出。这种结构化格式明确地对输出进行排名，为基于偏好的优化提供了清晰的基础。这些对是从各种来源生成的，包括专家轨迹、人类反馈、特定任务指标或智能体生成的探索轨迹。在探索阶段，通常采用蒙特卡罗树搜索（MCTS）等方法系统地生成多样化和高质量的轨迹。然后根据任务成功率、环境反馈或其他指标对这些轨迹进行评估，以构建和。通过直接比较或排名收集的用户偏好进一步增强了智能体行动与人类期望的对齐。
\2. 通过直接偏好优化进行策略优化：在构建偏好数据之后，下一步是优化智能体的策略，使其与这些偏好对齐。直接偏好优化是实现这一目的的广泛采用的方法，它利用偏好对来优化大语言模型的参数。通过迭代优化策略，直接偏好优化使基于大语言模型的智能体能够优先考虑期望的输出，并遵守特定任务的要求。直接偏好优化的优化目标如下所示：

其中是偏好数据集，表示当前策略在给定输入时对输出分配的概率，作为基于大语言模型的智能体的参考。正则化项确保更新与原始策略保持一致，而sigmoid函数在训练过程中提供稳定性。直接偏好优化通过直接基于偏好的策略优化，避免了与环境的额外交互。其正则化机制确保稳定性，并避免与参考模型产生显著偏差。

我们根据构建偏好数据集所使用的标准，对这一范式下的代表性研究进行讨论，包括基于专家、人类和任务反馈的研究，总结在表5中。

\1. 基于专家或人类偏好的优化：这一类别的偏好数据依赖于专家轨迹或人类定义的偏好来构建正样本和负样本，为优化提供了明确的基准。正样本通常直接来自专家行为或人类注释，代表理想的响应或行动。负样本通常来自智能体生成的错误或次优轨迹，或噪声数据。直接多轮偏好优化（DMPO）通过用状态 - 行动占用度量（SAOM）约束取代策略约束来优化强化学习目标，使用专家轨迹定义偏好和非偏好对。SAOM约束引导模型模仿专家的状态 - 行动分布，特别是在未探索的状态中，确保行动与专家轨迹一致。通过引入带有长度归一化的简化损失函数，直接多轮偏好优化直接最大化偏好轨迹的可能性，减少多轮任务中的错误。IPR通过在每一步比较智能体的行动与专家轨迹来构建偏好数据。如果智能体的行动产生的奖励低于专家的行动，则将其标记为错误，与专家的行动形成偏好对，其中专家的行动作为正样本。这些步骤级别的偏好通过结果直接偏好优化损失和步骤直接偏好优化损失进行优化，确保与专家标准的细粒度对齐。独特的是，AMOR采用两阶段方法进行偏好对齐，在预训练阶段结合监督微调，在适应阶段采用Kahneman-Tversky优化（KTO）。在适应阶段，人类注释的二元反馈（正确/错误）构成了优化模块特定参数的基础。KTO提高了对负样本的敏感性，并直接最大化人类定义的效用，与传统的基于偏好的对数似然方法不同。虽然基于专家和人类偏好的偏好数据构建利用高质量轨迹确保准确优化，但它通常在可扩展性和覆盖范围方面存在局限性，因为专家轨迹可能无法充分代表复杂环境中的不同场景或未探索状态。
\2. 基于任务或环境偏好的优化：这一类别涉及使用特定任务指标或直接从与环境的交互中获得的反馈来构建偏好数据集。这些方法利用奖励、成功率或其他性能指标来评估轨迹，通过直接偏好优化算法创建用于训练的偏好对。通过纳入特定环境的信号，这些方法确保了对动态和面向任务的上下文的适应性。一些研究使用基于任务成功或环境反馈的简单方法构建偏好数据，使用直接偏好优化来优化智能体策略，使其与任务目标一致。环境偏好优化（EPO）使用基于环境的反馈，通过奖励模型对输出进行排名，以识别获胜和失败样本。它将直接偏好优化与令牌级对齐损失相结合，以确保稳定训练和精确的任务对齐。其他方法引入了更结构化的偏好构建方法。例如，AgentQ采用蒙特卡罗树搜索来探索行动轨迹的各个分支，通过结合人工智能过程反馈和成功率生成偏好。同样，OPTIMA通过分析蒙特卡罗树搜索树生成轨迹对，根据共享祖先和显著奖励差异等标准对节点对进行排名。选择排名最高的对进行直接偏好优化训练，以提高效率和任务性能。ATM使用困惑度分数作为任务奖励来区分高质量和低质量输出，形成二元偏好对，通过直接偏好优化进行优化，以增强推理和任务适应性。
\3. 总结：基于强化学习的优化方法在提高基于大语言模型的智能体的决策能力方面显示出巨大潜力。通过纳入反馈信号，如奖励函数或偏好对齐，这些方法使智能体能够适应复杂和动态的任务。值得注意的是，这些方法的选择取决于任务的复杂性和数据的可用性：基于奖励函数的方法在处理复杂场景方面表现出色，但需要大量数据和计算资源；而基于偏好对齐的方法（如直接偏好优化）简化了训练，并使输出与人类偏好对齐，但严重依赖偏好数据的质量和覆盖范围，在高度动态的任务中适应性有限。

3.3混合微调优化

虽然传统的监督微调为初始化基于大语言模型的智能体提供了一种稳定的方法，但它在处理需要复杂决策的动态任务时往往存在困难。另一方面，强化学习在探索复杂场景方面表现出色，但通常需要大量数据和计算资源，使其不太适合直接用于初始化。为了克服这些局限性，混合微调策略结合了监督微调与强化学习的优点，创建了一个更灵活、更有效的框架。本节介绍体现这些混合方法的代表性研究。

大多数混合微调研究采用顺序方法，从热身阶段开始，在该阶段应用基于行为克隆的监督微调，使用高质量数据集（如专家轨迹）为大语言模型配备基本能力。在随后的强化学习阶段，近端策略优化或直接偏好优化等算法针对特定任务目标或动态环境优化智能体的策略。这种类似于OpenAI提出的强化微调（RFT）的范式，通过结合监督微调与强化学习来增强大语言模型的能力，已获得广泛应用。例如，ReFT、AgentGym、ETO、Re-ReST、AGILE和AMOR都在热身阶段使用监督微调，在专家轨迹或精心整理的数据集上训练模型。初始化之后，这些方法应用各种强化学习策略。ETO和Re-ReST使用直接偏好优化进行偏好对齐，AGILE采用近端策略优化进行决策，AMOR应用Kahneman-Tversky优化和二元反馈，使输出与人类偏好对齐。

一些研究采用迭代方法来优化混合微调范式，在监督微调与强化学习阶段之间交替，以提高性能。OPTIMA就是一个例子，它结合了迭代监督微调与迭代直接偏好优化，使基于大语言模型的智能体能够通过监督微调从最优轨迹中学习，同时通过基于比较偏好的直接偏好优化改进其理解。同样，IPR纳入了步骤级奖励，从ReAct风格的专家轨迹开始进行监督微调，并通过结果直接偏好优化和步骤直接偏好优化损失迭代地优化策略。这些迭代循环通过解决全局和细粒度的改进，确保与任务目标的持续对齐。

此外，一些研究在混合微调框架中纳入专门机制来应对特定挑战。例如，Retrospex从在高质量专家轨迹上进行监督微调开始，以建立基础知识和特定任务技能。在训练后阶段，它通过隐式Q学习训练一个行动价值函数，整合离线强化学习，使模型能够通过强化学习评论家将固定的经验数据与大语言模型输出相结合进行加权评分，优化动态环境中的决策。ENVISIONS使用监督微调来优化自我探索得出的解决方案，根据任务成功指标从候选池中选择正样本和负样本对。为了简化传统强化学习，它用无强化学习损失结合基于最大似然估计的微调损失进行最终优化。

总之，混合微调策略结合了监督微调与强化学习的优点，使基于大语言模型的智能体能够在结构化指导与自适应优化之间取得平衡。虽然这些方法为复杂、动态的任务提供了更大的灵活性，但它们也面临计算成本增加以及对高质量偏好或奖励数据的依赖等挑战。未来的研究应专注于开发更有效的方法来结合微调与强化学习。这种混合范式在通过增强基于大语言模型系统的通用性和性能来推进智能体优化方面具有巨大潜力。这些策略的有效性在很大程度上取决于其设计和集成，使其成为未来创新的重要方向。

4基于大语言模型的智能体的无参数优化

除了对基于大语言模型的智能体发展至关重要的参数驱动优化方法外，无参数优化通过在不修改其底层模型参数的情况下优化智能体的行为，提供了一种有前景的替代方案。这种方法通过调整模型的输入、上下文和任务交互（主要通过自然语言提示）来提高性能，在资源受限的环境中特别有效。本节探讨各种无参数优化方法，这些方法侧重于通过提示工程以及在提示中纳入各种类型的信息（如反馈、工具、外部知识和智能体协作）来增强智能体的能力。与其他根据智能体结构或架构对方法进行分类的综述不同，我们根据用于优化智能体行为的策略和技术对方法进行分类，包括基于经验的优化、基于反馈的优化、基于工具的优化、检索增强优化和多智能体协作优化。

4.1基于经验的优化

基于经验的优化利用历史数据、轨迹或积累的知识，通过从过去的经验中获取见解来改进基于大语言模型的智能体。通过存储和分析成功与失败的案例（通常通过记忆模块），智能体可以优化策略、增强长期决策能力，并适应不断变化的任务。这种方法为智能体在不同任务和领域中进行泛化提供了强大的机制。

Optimus-1利用多模态记忆模块将探索轨迹转换为分层知识图，帮助智能体进行任务规划和生成提示。类似地，Agent Hospital集成了医疗记录库和经验存储库，根据成功和失败的案例优化指南，在医疗场景中优化智能体的决策。为了提取可操作的见解，ExpeL自主收集训练任务中的知识，并在推理时回忆这些见解。AutoManual将任务规则整理成手册，作为提示来指导智能体未来的行动并更新系统规则。AutoGuide使用离线轨迹数据将上下文映射到最优行动，使智能体在推理时能够检索排名靠前的指南并动态适应。此外，Experiential Co-Learning引入了一个框架，其中指导者和助手智能体从其历史轨迹中协作收集以快捷方式为导向的经验。这些经验被重新用于为未来的任务执行提供信息，使智能体能够通过共享和积累的知识进行迭代改进。

4.2 基于反馈的优化

基于反馈的优化通过利用反馈进行自我反思、纠正和迭代改进，增强基于大语言模型的智能体的能力。通过动态更新，智能体改进其策略和能力，以适应复杂任务。这些方法与第3.1节中讨论的参数驱动的迭代优化方法类似，但不是修改大语言模型的参数，而是利用基于自然语言的反馈和反思来迭代地指导和优化智能体的行为。我们根据优化智能体行为的策略以及反馈如何触发下一轮改进，将相关工作分为三类：基于反馈的自我反思优化、基于外部反馈的优化和元提示优化。

4.2.1 基于反馈的自我反思优化

基于反馈的自我反思优化侧重于智能体利用来自环境或自身评估的反馈，对其行动和决策进行反思的能力。智能体利用这些反馈来确定需要改进的地方，并通过自我纠正和进化来调整其行为，从而增强其在动态环境中的适应性和性能。

Reflexion和QueryAgent利用环境和特定任务的反馈来驱动自我反思调整。通过将任务结果或启发式评估转换为文本纠正，这些方法将反馈整合到决策过程中，提高了适应性和对上下文的理解。在SAGE中，检查智能体对当前解决方案提供迭代反馈，而助手智能体生成自我反思以获得进一步反馈，支持自我进化。其他工作通过纳入更高阶的推理和策略级优化来扩展自我反思。Agent-pro迭代地反思过去的轨迹和信念，使智能体能够调整不合理的策略并优化决策。同样，Recon引入一阶和二阶视角转换，智能体在其中评估其推理并考虑外部观点以进行策略调整。此外，像Symbolic Learning和NLRL这样的方法使用自然语言提示来模拟参数优化，如梯度更新和奖励函数。这些方法使用精心设计的提示来评估当前的决策过程，并将由此产生的评估视为反馈，使智能体能够迭代地优化其策略并提高任务性能。

4.2.2 基于外部反馈的优化

基于外部反馈的优化利用来自外部模型、智能体或框架的评估信号来优化行动智能体的行为。受强化学习中演员 - 评论家范式的启发，这些方法整合外部反思和纠正，以增强基于大语言模型的智能体的稳健性和适应性，通常用于多智能体场景，是多智能体协作优化框架中常用的技术，这将在§4.5中讨论。

Retroformer利用使用近端策略优化训练的回顾模型来分析失败并提供优化的反馈，使主要智能体能够根据回顾性见解迭代地调整其行动。类似地，COPPER采用共享反射器模块生成反事实反馈，优化提示，并将改进存储在记忆模块中，提高了行动智能体的任务性能和可靠性。InteRecAgent涉及一个评论家大语言模型监督行动智能体的行为，以防止指令违规或错误的工具使用，从而增强稳健性和错误纠正能力。在CoE中，提出了一个多智能体框架来解决复杂的运筹学问题，其中指挥者协调专门智能体之间的任务分配，评估者通过反向优化提供反馈以迭代地优化输出。

4.2.3 元提示优化

元提示优化侧重于优化全局指令或元提示，以增强基于大语言模型的智能体的泛化能力。通过根据反馈迭代调整提示，它使智能体能够更有效地适应多样和动态的任务，从更广泛和更通用的角度优化其行为。

MetaReflection从失败的试验中提取信息以创建优化的提示，并迭代地整合这些提示以提高任务性能。Retroformer通过使用近端策略优化训练一个回顾性智能体来优化元提示，利用失败分析生成改进的指令，指导智能体避免重复错误。其他方法侧重于通过元提示模拟优化过程。例如，OPRO通过分析任务准确性并生成旨在迭代改进结果的指令来优化提示。Symbolic Learning使用自然语言模拟梯度更新和损失函数等优化概念，使智能体能够通过语言驱动的提示迭代地调整其策略。

4.3 基于工具的优化

大语言模型和基于大语言模型的智能体之间的关键区别之一是它们利用外部工具的能力。这些工具包括计算器、搜索引擎、代码解释器（例如Python）、API和特定领域的模块，使智能体能够执行需要外部计算、动态信息检索或专业功能的任务。应用这些工具，智能体可以显著扩展其问题解决的范围和能力，使工具的使用成为智能体优化的基石。在本节中，我们介绍通过优化工具使用和选择策略来提高智能体性能的研究。

TPTU通过优化任务分解和工具调用来增强任务规划和工具使用。AVATAR、Lyra和Middleware优化工具策略以解决现有局限性。AVATAR使用比较器分析样本对之间的性能差异，将差异归因于工具使用问题并提供可行的改进建议。Lyra专注于使用预定义的证明工具（如Sledgehammer）纠正形式证明中的工具错误。Middleware引入错误反馈机制，使工具的输入和输出在各个步骤中保持一致，减少执行错误并提高系统的稳健性。此外，AgentOptimizer通过将函数视为可学习的权重来优化工具使用，使智能体能够根据执行历史和任务性能迭代地优化函数集，而无需修改核心大语言模型的参数。其他方法注重在动态环境中高效集成工具。VideoAgent采用最小但足够的工具集，结合专门的模型用于视觉问答和对象记忆查询。AutoAct使用预先组装的工具库（如搜索引擎和代码解释器）自动生成任务轨迹。

4.4 基于检索增强生成（RAG）的优化

检索增强生成已成为一种强大的范式，通过将检索与生成过程相结合来增强基于大语言模型的智能体。通过从大规模数据库或特定领域的语料库中动态整合外部知识，检索增强生成克服了固定预训练知识的局限性，提高了在不断变化的环境中的适应性。这些方法基于上下文学习，在知识密集型任务中增强决策和推理能力。在本节中，我们探索将检索增强生成应用于优化智能体性能的代表性研究，重点关注将检索机制与基于提示的增强相结合的策略。

一些方法侧重于优化检索配置并增强语言模型的输出。AutoRAG自动选择检索增强生成模块，系统地评估检索技术、重排策略和扩展方法的组合，以确定最佳配置。Self-RAG将检索与自我反思相结合，使智能体能够通过迭代反馈自适应地优化内容。其他框架强调检索增强的任务规划和执行。RaDA和Rap利用过去的经验和动态检索来分解任务并生成上下文感知的行动，增强智能体在迭代规划场景中的能力。同样，PaperQA将检索增强生成的应用扩展到科学领域，通过对全文文章进行检索，确保对科学查询提供精确且上下文相关的答案。在多智能体环境中，MALADE利用检索来增强特定领域问题（如药物不良反应识别）中智能体之间的协调。通过从外部数据源提取相关信息，智能体协作解决复杂任务。同样，EMG-RAG使用强化学习智能体来优化记忆选择，增强用于智能体交互的上下文提示。

4.5 多智能体协作优化

多智能体框架通过协作广泛用于处理复杂、动态的任务。通过将责任分配给专门的智能体，它们实现了并行处理、信息共享和自适应角色分配，减轻了认知和计算负担。在基于大语言模型的多智能体优化中，提示定义智能体的角色、协调交互并建立共享目标。通过迭代协作和反馈，这些框架优化决策，使集体性能超越单个智能体的能力。

多智能体协作优化通过利用分布式角色和迭代交互来提高智能体在复杂任务中的性能。在编程和软件开发中，MetaGPT、ChatDev和MapCoder分配专门的角色来简化工作流程。这些方法将任务分解为模块化阶段，整合结构化提示、基于角色的协作和迭代优化，以模拟类似人类的软件开发过程，包括检索、规划、代码生成、调试和文档编写。为了优化智能体的组织和协作，DyLAN和MacNet动态构建智能体网络，以确定最有效的智能体组合。DyLAN引入智能体重要性得分和提前停止机制，允许高效选择关键贡献者，而MACNET使用有向无环图组织智能体，简化交互以进行更有效的推理。此外，Agentverse和CAPO专注于规划和任务执行，使智能体能够迭代评估和改进解决方案。SMoA和MAD通过引入专门的决策框架来优化多智能体交互。MAD建立了一个辩论框架，多个智能体在其中提出论点，由一个裁判智能体管理辩论并选择最佳解决方案。值得注意的是，MAD框架在后续工作中被频繁采用，证明了其在多智能体优化任务中的有效性。

像AutoGen和Multi-AI Agent这样的通用框架为从编程到问答的各种任务设计自适应和灵活的多智能体系统。通过动态协调专门的智能体，这些框架展示了多智能体协作在解决复杂问题的同时实现高效和可扩展优化的潜力。

5 数据集和基准

数据集和基准对于评估和增强基于大语言模型的智能体至关重要。在本节中，我们从两个角度总结常用的数据集和基准：（1）用于评估的数据集和基准，用于评估智能体在各种任务中的性能；（2）用于智能体调优的数据集，用于在相关任务和环境中对智能体的特定能力进行微调。

5.1 用于评估的数据集和基准

5.1.1 通用评估任务

在表7中，我们总结了常见的评估数据集，按数学推理、问答任务、多模态任务、编程等通用任务领域进行分类。此外，根据AgentBank的分类方法，任务根据动作空间进行分类，区分具有连续动作空间（包括自然语言和代码）的任务和具有预定义离散动作空间的任务。

\1. 数学：数学推理数据集评估智能体进行多步推理和解决复杂问题的能力。GSM8K提供小学水平的算术问题，测试模型的推理能力。AsDIV和SVAMP专注于文字问题，要求在文本上下文中进行逻辑推理和理解算术关系。对于更高级的推理，MATH包括代数、微积分和几何问题，而AIME以奥林匹克风格的问题为目标，挑战智能体的推理深度，用于高级问题解决。
\2. 问答：问答数据集旨在评估智能体理解、推理和提供准确答案的能力，通常需要多步推理和上下文理解。HotpotQA是一个大规模的多跳问答数据集，有超过113,000个样本，要求智能体从多个文档中提取信息并进行逻辑推理。StrategyQA专注于隐式推理，要求采用多步策略来回答是/否问题，而MMLU评估跨57个学科的知识，在广泛的零样本和少样本任务中测试模型。TruthfulQA测试智能体避免生成基于人类似误解的答案的能力，涵盖38个类别。TriviaQA提供了一个具有挑战性的阅读理解平台，有超过650,000个问题-答案-证据三元组，强调语言多样性和跨句子推理。对于特定领域的推理，PubMedQA专注于生物医学问题，要求从研究摘要中进行逻辑推导。像MuSiQue和2WikiMultihopQA这样的数据集测试多跳推理，整合结构化和非结构化数据源，而QASPER强调从学术研究论文中提取答案的能力。ARC分为挑战集和简单集，针对小学水平的科学推理，挑战智能体解决多项选择题。
\3. 代码：基于代码的数据集评估智能体在代码生成和编程任务中的能力，例如将自然语言描述转换为可执行代码。SWE-bench专注于现实世界的软件工程任务，通过利用自然语言问题描述和代码库上下文，测试智能体为GitHub问题生成补丁代码的能力。同样，HumanEval评估智能体从文档字符串合成Python代码的能力，作为基本代码生成任务的基准。对于更广泛的编程挑战，LiveCodeBench收集来自LeetCode和AtCoder等竞赛平台的问题，强调调试、代码执行和测试输出预测等技能。此外，BIRD和InterCodeSQL评估模型在数据库相关任务中的性能，包括从自然语言生成SQL查询并通过执行反馈进行优化。这些数据集突出了编程环境的复杂性以及有效代码生成和适应所需的多样化能力。
\4. 工具使用：工具使用数据集评估智能体与外部工具或API交互以完成复杂任务的能力。T-Eval提供了一个细粒度的评估框架，将工具使用分解为指令遵循、规划、推理、检索和审查等不同步骤。它涵盖多个领域的15种基本工具，提供了对智能体在工具使用每个阶段性能的详细见解。ToolEval基于ToolBench，是一个自动评估器，用于评估智能体的工具使用能力。它使用两个指标：通过率，衡量任务完成的成功率；胜率，比较给定任务的两个解决方案候选之间的偏好。MINT-Bench评估智能体处理与工具的多轮交互并响应自然语言反馈的能力，强调在动态任务中的性能。API-Bank测试智能体在API规划、检索和执行方面的能力，涵盖1,000个领域的2,000多个API。该数据集评估智能体执行现实世界任务（如网页搜索、计算和智能家居控制）的能力，为工具增强模型提供了全面的基准。
\5. 网页：网页环境基准评估智能体在导航和与在线环境交互以完成复杂任务的能力。WebShop模拟一个拥有118万种产品和超过12,000个文本描述的电子商务平台，挑战智能体理解指令、重新制定查询并策略性地探索网页以完成购买。WebArena提供了一个全面的基准，包含四个完全可操作的网络应用程序，如在线购物和协作开发。此外，其轻量级版本WebArena-Lite为资源受限的测试提供核心功能。Mind2Web专注于通用网页智能体，涵盖31个领域的137个真实世界网站，有2,350个开放式任务和众包操作序列。MiniWoB++包括100多个网页交互环境，便于在强化学习和自动网页界面智能体任务方面的研究。
\6. 环境交互：环境交互任务评估智能体在动态环境中进行复杂推理、决策和任务执行的能力。这些任务通常涉及与物理或虚拟世界的交互，要求智能体根据环境反馈进行适应和解决问题。ScienceWorld挑战智能体使用基于文本的指令进行科学实验，需要逻辑推理和任务执行。在具身体验场景中，ALFWorld和TDW-MAT评估智能体在物理和多智能体环境中的能力，任务包括对象操作、导航和协作。在C-WAH和ALFRED中，智能体通过解释自然语言指令并协调行动来执行家务任务。此外，基于游戏的交互任务评估智能体在竞争和合作环境中的战略决策和风险评估能力。RLCard提供了几个纸牌游戏环境，如二十一点和限注德州扑克，智能体必须在不完全信息游戏中制定最优策略。OpenSpiel提供了各种游戏，包括5x5突破游戏，测试智能体在多智能体环境中制定策略和优化政策的能力。
\7. 多模态：在多模态任务中，智能体接受测试，以评估它们整合和推理多种输入类型（如图像、文本和视频）的能力。VQA-V2是视觉问答的基准，包含超过265,000张图像和110万个问题，挑战智能体回答需要视觉理解和文本推理的问题。A-OKVQA和ScienceQA (IMG)评估智能体在一般知识和科学等复杂领域中跨视觉和文本信息进行推理的能力。EgoSchema和Next-QA专注于视频理解，EgoSchema评估智能体对长格式视频中人类活动的推理能力，Next-QA挑战智能体推断短视频中的因果和时间关系。这两个数据集都突出了推理时间相关和上下文信息的复杂性。

5.1.2 多任务基准

多任务基准评估基于大语言模型的智能体在各种任务中的表现，测试它们在不同领域的泛化和适应能力。这些基准通常将多种任务类型集成到一个统一的平台中，对智能体的性能进行更全面的评估。表8总结了关键的多任务基准，突出了涵盖的数据集数量、任务领域类型、测试样本大小以及相应资源的链接。

\1. AgentBench：AgentBench在包括操作系统、数据库和网页浏览在内的八个环境中评估智能体。它专注于编程、游戏和网页导航三种任务类型，评估推理、决策和工具使用能力，以深入了解智能体在现实世界中的性能。
\2. AgentEval：AgentEval是一个源自AgentGym的基准套件，包括14个环境，如网页导航、文本游戏、具身控制和编程。该数据集包含从不同环境中的收集任务中获得的1,160个多样化指令，使用统一的ReAct格式将推理和行动序列结合起来进行全面评估。
\3. Just-Eval：Just-Eval聚合了来自AlpacaEval、MT-Bench和LIMA等多个数据集的样本，评估文本生成和推理等任务。它提供了一个标准化平台，用于多任务学习，评估智能体处理多样化输入和任务的能力。
\4. StreamBench：StreamBench在持续改进的设置中评估智能体，测试它们随时间适应和改进的能力，任务包括文本到SQL生成、Python编程和医学诊断。
\5. AgentBoard：AgentBoard提供了一个用于决策和长期任务执行的多轮评估框架。该框架涉及九个任务类别，包括网页、工具使用、游戏和具身人工智能，在1,013个示例环境中进行评估。

5.2用于智能体调优的数据集

微调数据集对于优化基于大语言模型的智能体至关重要，因为它们能提供高质量的轨迹，使智能体获得特定任务的能力，并在目标场景中提升性能。尽管许多用于评估的数据集也可用于微调，但本节重点介绍专门为智能体调优设计的数据集。这些数据集经过精心构建，以提升智能体在各种任务和环境中的能力。在表9中，我们总结了常用的智能体调优数据集，详细列出了任务数量、涵盖领域、筛选后的轨迹数量以及数据来源。

\1. AgentInstruct：这个数据集包含从六个任务（包括ALFWorld、WebShop和Mind2Web）派生的超过35,000条指令，涵盖具身人工智能、数据库操作和基于网络的任务。轨迹通过自我指令和任务推导生成，并经过质量筛选，以确保有效的微调。
\2. AgentBank：AgentBank由16个公共数据集构建而成，涵盖推理、数学、编程、网络交互和具身智能五个技能维度。它提供了51,287个交互轨迹，支持连续和离散动作空间。
\3. Agent-FLAN：这是一个为智能体调优重新构建的数据集，来源于AgentInstruct、ToolBench和ShareGPT数据集。训练语料库经过分解和重新设计，将格式遵循和一般推理任务分开，确保与预训练领域一致，同时防止过度拟合特定格式。
\4. AgentOhana：AgentOhana旨在统一来自Mind2Web、ToolBench和ToolAlpaca等异构源的轨迹，采用标准化的多轮数据结构，以便在不同的智能体场景中进行一致的多任务微调。
\5. FireAct：FireAct在ReAct范式下构建，整合了在三个不同任务中生成的轨迹，利用了包括ReAct、思维链（CoT）和Reflexion在内的多种提示方法。该数据集捕获了由GPT-4生成的多轮思维 - 行动 - 观察序列，并将其结构化转换为ReAct格式，以提高推理、适应性和多步问题解决能力。
\6. ToRA-CORPUS：ToRA-CORPUS是专门为数学推理构建的数据集，由从MATH和GSM8K数据集派生的16,000个轨迹组成。使用带有贪婪解码和核采样的GPT-4，该数据集确保了轨迹的正确性和强大的问题解决能力。
\7. AgentTraj/AgentTraj-L：这些数据集源自AgentGym，分别包含在14个环境中筛选后的6,130个和14,485个轨迹。AgentTraj为训练具有通用能力的智能体提供了基础，而AgentTraj-L通过相同的管道收集了更大的轨迹集，为使用行为克隆的性能设定了上限。
\8. SMART-Trajectory：SMART-Trajectory专注于知识密集型任务的长短期轨迹，整合了来自开放域问答、常识推理和对话等来源的数据。它还支持多智能体框架和轨迹学习技术。

6应用

基于大语言模型的智能体已在多个领域得到应用，展示了它们解决复杂任务和提高生产力的潜力。本节概述了它们在医疗保健、科学、具身智能、金融和编程领域的作用，并展示了这些领域中的一些代表性应用。

6.1医疗保健

基于大语言模型的智能体在医疗保健领域的应用包括医学问答、诊断、治疗规划和医疗模拟。早期，像Med-PaLM、DoctorGLM和BianQue这样的大语言模型通过对医学数据集进行微调，提高了对话准确性和诊断支持能力。DISC-MedLLM通过使用医学知识图谱、真实世界对话重建和偏好引导注释构建医学数据集，用于微调。Agent Hospital和AI Hospital等模拟框架引入了动态环境，使智能体能够参与涉及患者和医生的现实医疗场景。KG4Diagnosis和MDAgents通过在多智能体系统中模拟全科医生和专家之间的交互，促进了协作决策。MedAgents在角色扮演场景中利用基于大语言模型的智能体，参与协作式多轮讨论。此外，像AgentMD和MMedAgent这样的基于工具的方法专注于通过自动工具选择和多模态集成提供临床决策支持。ClinicalAgent结合推理技术、多智能体架构和外部知识，提升了临床环境中智能体的性能。最近，HuatuoGPT-o1和IIMedGPT将微调与近端策略优化和直接偏好优化等强化学习技术相结合，增强了智能体在医学推理和临床决策方面的能力。这些方法在复杂任务中实现了更高的准确性，例如生成经过验证的医学响应和优化动态治疗计划。

6.2科学

人工智能在科学领域的应用（AI for Science）指的是利用人工智能技术推动科学研究和发现。大语言模型的出现显著增强了这些能力，实现了更复杂的科学推理和自动化。基于大语言模型的智能体越来越多地应用于生物学、化学和材料科学等各个科学学科，用于自动化数据分析、支持假设检验和优化研究工作流程，最终加速科学发现的进程。
在生物学研究中，基于大语言模型的智能体广泛用于数据分析和实验设计。CellAgent和BioDiscoveryAgent分别利用多智能体协作和自我优化来自动化和增强单细胞数据分析和基因破坏实验。同样，ProtAgents和CRISPR-GPT利用大语言模型进行蛋白质设计和基因编辑，将模型推理与外部工具集成，实现复杂任务的自动化，加速生物医学发现。此外，MProt-DPO采用直接偏好优化进行蛋白质设计，整合实验数据和模拟，更有效地优化蛋白质景观。在化学和材料科学领域，Chemcrow和DrugAssist集成了专家设计的系统，用于自动化有机合成、分子优化和化学问题解决。这些智能体通过自主规划化学合成和发现新分子，增强了大语言模型的能力。Eunomia从科学文献中自主提取和构建数据集，而DrugAgent采用多智能体框架进行药物发现中的机器学习，优化研究过程的各个阶段。在更广泛的科学研究中，VirSci和SciAgent在智能体驱动的发现方面取得了显著进展。这些智能体整合了多种工具，促进知识交流、改进问题解决并加速研究成果的产出。

6.3具身智能

最近基于大语言模型的智能体的进展显著提升了具身智能和机器人系统的能力，使其能够自主地与物理世界进行交互。它们集成了视觉、听觉和触觉等多模态输入，以执行复杂任务并优化智能体行为。这些智能体通常部署在从家务到多机器人协作的物理和基于文本的环境中，大语言模型在其中指导机器人完成动态任务。
CoELA、SayCan和RoCo整合了感知、记忆、通信和规划等智能体模块来执行复杂任务。SayCan将大语言模型驱动的知识与强化学习相结合，指导机器人助手在现实世界中完成厨房任务等任务，而RoCo支持多机器人手臂协作以实现协同动作。在基于文本的环境中，Voyager利用长期记忆和推理在Minecraft中获取和改进技能。MultiPLY和Retrospex采用多模态感官输入并优化动作策略，展示了基于大语言模型的智能体如何弥合感知和规划之间的差距。同样，EPO、AutoManual和MSI-Agent等框架采用类似的方法，将复杂任务分解为可管理的子目标，利用环境反馈并动态调整策略。此外，iVideoGPT、AutoRT和EMMA通过集成视觉、动作和文本数据进行任务规划和执行，推进了跨模态能力。具体而言，iVideoGPT支持基于交互式视频的推理，AutoRT自动化多机器人协作以进行现实世界数据收集，EMMA跨模态转移大语言模型的专业知识，使其能够快速适应新的视觉任务。

6.4金融

基于大语言模型的智能体在金融领域广泛应用于市场预测、交易决策、风险管理和金融模拟等任务。通过先进的推理能力和外部工具，这些智能体提高了决策效率，自动化了重复性任务，并适应了动态的市场环境。TradingGPT、FinMem和FinAgent利用分层记忆和反思机制分析历史交易数据，促进对市场波动的自适应决策。SEP在交易中采用强化学习，将回测作为有效的反馈机制，其中历史市场预测和结果作为奖励来优化智能体的性能。FinCon、TradingAgents和Finvision等多智能体系统通过将结构化报告与自然语言辩论相结合，模拟现实世界的团队动态，实现分析师和风险管理者等不同角色之间的协作。ASFM整合跨模态推理和模拟框架，使智能体能够处理多模态数据，在现实环境中评估策略，并适应复杂的金融场景。FinRobot提出了一个多智能体人工智能平台，利用金融思维链、动态模型配置和多源大语言模型集成来增强金融分析。此外，FinVerse设计了一个带有嵌入式代码解释器的智能体系统，并采用监督微调来训练大语言模型进行通用金融分析。

6.5编程

基于大语言模型的智能体在编程工作流程中的集成显著增加，有助于代码生成、调试和软件维护。优化技术和外部工具的使用进一步提高了它们的推理、规划和工具使用能力，使其能够更好地适应复杂的软件开发任务。
Lemur和AgileCoder在自然语言推理和代码执行能力之间取得平衡，使基于大语言模型的智能体在动态软件开发环境中更加通用。MetaGPT、ChatDev和MapCoder采用多智能体协作框架来增强软件开发，构建工作流程，其中专门的智能体处理规划、编码、调试和测试等任务。同样，SoA和CTC引入了可扩展的协作方式，动态调整智能体角色，并促进跨团队通信，以优化大规模代码生成和优化。除了协作，基于大语言模型的智能体还针对与软件工件的直接交互进行了优化。SWE-Agent和CodeAgent通过集成用于自动测试和执行的编程工具，增强了在代码库范围内的代码导航、检索和修改能力，使智能体能够超越代码生成，支持对代码库的理解和迭代优化。为了进一步提高适应性，AgentCoder和RLEF纳入迭代反馈和执行驱动的学习，通过持续测试和调整优化智能体的输出，模仿编程任务中类似人类的问题解决方式。

7挑战与未来方向

我们概述了当前基于大语言模型的智能体优化所面临的关键挑战，并探讨了潜在的未来研究方向。

7.1对数据偏差的鲁棒性

由于基于大语言模型的智能体依赖于训练数据的质量和一致性，一个关键挑战是通用预训练数据与特定于智能体的调优数据之间的分布不匹配。此外，一些数据集通常包含由多智能体系统生成或由大语言模型优化的交互数据，这可能引入大语言模型的认知偏差，有可能基于先前的模型行为放大或产生新的偏差。另一个问题是自动化数据过滤和评估中的偏差。基于大语言模型的智能体越来越依赖基于模型的过滤和自我评估来确定用于训练的数据。这可能导致难度偏差，即模型不成比例地选择它已经能够解决的任务，而丢弃更复杂的示例。这种自动化选择过程通常根据任务的可解性对任务进行分类，从而在训练数据和现实世界部署场景之间造成差异，训练数据通常比现实世界任务的挑战性更低。
未来的研究应侧重于开发强大的技术来构建数据集并减轻数据偏差，如对抗训练方法、偏差测试以及探索大语言模型的知识边界。此外，使训练数据分布与现实世界应用保持一致对于减少偏差至关重要。纳入人工干预和多智能体反馈机制可以进一步提高数据的多样性和质量，使智能体在动态、复杂的环境中表现更好。

7.2算法适应性和效率

基于大语言模型的智能体优化中的一个关键问题是在算法效率与特定任务适应性之间取得平衡。当前的方法，如强化学习和微调，通常面临稀疏奖励和大动作空间等挑战，导致次优解或对特定数据分布的过拟合。像近端策略优化这样的算法虽然有效，但计算成本高且难以扩展。直接偏好优化简化了过程，适用于单步优化，但大多数智能体任务需要多步交互，这暴露了当前方法的不足。此外，使用智能体数据对大语言模型进行微调可能会导致过拟合或性能受限，因为它通常受到基础模型固有能力的限制。
探索结合强化学习和微调的混合方法为提高适应性和效率提供了一条潜在途径。此外，利用元学习和自监督学习开发更具泛化性的优化方法可以提高智能体在不同任务中的性能。优化奖励设计并集成注重效率的算法对于在保持高适应性的同时降低计算成本也至关重要。

7.3跨域适应

跨域泛化对于基于大语言模型的智能体在现实世界应用中的成功至关重要，因为智能体必须适应各种任务和环境。当前的方法通常侧重于在特定环境中提高性能，通常通过使用智能体轨迹数据对特定领域的能力进行微调。虽然这些方法提高了智能体在目标任务上的性能，但在应用于新的、未见过的领域时往往会失败。这种局限性源于智能体无法将所学知识泛化到不同的上下文，特别是当训练数据和现实世界数据分布之间存在显著不匹配时。
为了解决这一局限性，未来的工作应侧重于开发更具泛化性的方法，以提高大语言模型在不同领域之间的可转移性。分布对齐和域适应等技术可以使智能体在任务之间更有效地转移知识，即使在动态环境中也是如此。此外，探索多任务学习和域不变表示将增强智能体在各种场景中的泛化能力，确保在现实世界应用中的稳健性能。

7.4标准化评估指标

目前，对基于大语言模型的智能体的评估缺乏标准化指标，这使得在不同任务和领域中比较性能变得困难。不同的智能体在不同的环境中运行，如数学推理、网页导航和具身人工智能，每个环境都依赖于不同的评估标准，如准确性、成功率或奖励。这种可变性使得难以公平地比较优化方法并评估它们的泛化性。多智能体系统引入了进一步的复杂性，因为协作决策缺乏统一的基准，这阻碍了全面的性能评估。此外，现有指标主要评估任务完成情况，而不是优化的程度，这使得难以量化不同增强技术的有效性。
建立标准化的评估框架为促进在各种基于大语言模型的智能体任务之间进行公平比较提供了一个有前景的方向。这包括开发统一的基准，评估超越任务完成情况的优化有效性，纳入适应性、推理复杂性和迭代改进的指标。此外，创建跟踪逐步优化进展的适当指标，并整合基于偏好的评估信号，可以提供更全面的评估。

7.5基于大语言模型的参数驱动多智能体优化

基于大语言模型的智能体研究中，参数驱动的多智能体优化仍然是一个未充分探索的领域。大多数现有方法侧重于优化单智能体性能的参数，在针对参数驱动的多智能体协作的方法方面存在差距。当前的多智能体策略通常依赖于冻结的大语言模型，限制了联合优化并制约了协作潜力。如果没有高效的通信、任务分配和协调机制，多智能体系统可能会出现效率低下和不一致的情况。此外，仅优化单个智能体的参数可能会导致过度专业化、目标冲突和次优合作，最终阻碍整体系统性能。
增强多智能体参数优化方法对于推进基于大语言模型的系统至关重要。关键的关注领域包括用于有效信息交换的通信协议、在共享环境中进行适应的分布式学习以及提高集体效率的协调策略。应进一步探索联合参数调整和多智能体训练，以使智能体目标保持一致并最大化系统性能。此外，奖励共享机制和分层决策可以进一步促进合作，使基于大语言模型的多智能体系统能够在动态和复杂的环境中有效运行。

8结论

本综述全面概述了基于大语言模型的智能体的优化方法，将其分为参数驱动和无参数方法。我们重点关注参数驱动的优化，包括传统微调、基于强化学习的方法和混合方法。我们首先详细介绍了传统微调中从数据构建到微调的整个过程。随后，我们概述了基于强化学习的优化，涵盖了奖励函数优化和偏好对齐方法。然后，我们介绍了无参数方法，包括反馈机制、历史经验整合、工具使用、检索增强生成和多智能体协作。此外，我们总结了广泛用于评估或微调智能体的数据集，并介绍了基于大语言模型的智能体在现实世界中的各种应用。最后，我们确定了几个需要解决的关键挑战，并提出了未来的研究方向，旨在推动开发更强大、更智能的基于大语言模型的智能体。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述