Agent Q介绍：具有规划和自愈能力的下一代人工智能代理的研究突破

本文链接：https://blog.csdn.net/weixin_41446370/article/details/141675548

在这里插入图片描述
近年来，大型语言模型（LLM）的功能已经改变了自然语言处理和理解，取得了令人瞩目的里程碑式成就。尽管取得了这些进步，大型语言模型在交互环境中仍面临巨大挑战，尤其是在需要多步骤推理的任务中，如网络导航。当前的训练方法依赖于静态语言数据集，不足以让这些模型适应真实世界的动态交互。

Agent Q的出现是Agent的一个重要里程碑，它将搜索、自我批评和强化学习结合在一起，创造出能够规划和自我修复的最先进的自主网络代理。我们的突破性方法解决了以往 LLM 训练技术的局限性，为自主网络导航引入了一个新颖的学习和推理框架。

目前的方法，如在专家示范的基础上进行有监督的微调，往往由于误差的累积和探索数据的有限而无法满足代理多步骤任务的要求。这些方法会产生次优策略，尤其是在需要复杂决策和自适应学习的动态环境中。

Agent Q 的创新之处在于将引导蒙特卡洛树搜索（MCTS）和人工智能自我批评与迭代微调相结合，利用了人类反馈强化学习（RLFH）方法，如直接偏好优化（DPO）算法。这种方法使 LLM 代理能够从成功和不成功的轨迹中学习，从而增强其在多步骤推理任务中的概括能力。

MCTS 引导搜索：该技术通过探索不同的行动和网页自主生成数据，在探索和利用之间取得平衡。MCTS 利用高采样温度和多样化的提示来扩展行动空间，确保收集到多样化的最佳轨迹。
人工智能自我批评：在每一步中，基于人工智能的自我批评都会提供有价值的反馈，完善代理的决策过程。这种步骤级反馈对于长视距任务至关重要，因为信号稀少往往会导致学习困难。
直接偏好优化(Direct Preference Optimization)：DPO 算法通过从 MCTS 生成的数据中构建偏好对来微调模型。这种非策略训练方法能让模型从总体数据集（包括搜索过程中探索的次优分支）中有效学习，从而提高在复杂环境中的成功率。