智能体「自我进化」全流程--AgentGym

最新推荐文章于 2024-08-20 10:58:52 发布

hanscalZheng

最新推荐文章于 2024-08-20 10:58:52 发布

阅读量485

点赞数 3

分类专栏：大语言模型智能体文章标签：人工智能大语言模型智能体

本文链接：https://blog.csdn.net/weixin_43145427/article/details/139831971

版权

大语言模型同时被 2 个专栏收录

72 篇文章 4 订阅

订阅专栏

智能体

1 篇文章 0 订阅

订阅专栏

AI通用智能体的自我进化能力，并非遥不可及。基于大语言模型的智能体已经不再需要人类监督者的帮助，开始实现「自我进化」！这个智能体在学习了专家轨迹以后，获得了基础的通用能力，能够在更广泛、更真实的未知环境与任务上进行探索和学习，在外部的反馈下不断提升自己。

最近，复旦大学语言与视觉团队推出的 AgentGym 平台，打通了大语言模型智能体「数据采样、训练微调、自我进化、能力评测」全流程。基于该平台提出的 AgentEvol 算法，首次探索了通用智能体的自我进化能力，并在多项智能体任务上表现非凡，与 GPT-4、Claude 等 SOTA 模型比肩。
在这里插入图片描述
论文中首次探讨了构建具备自我进化能力的通用LLM代理，提出了三大关键要素：多样化环境、轨迹集以及有效的进化方法，并设计了AgentGym框架来实现这一目标。

1 智能体发展的两个方向

大语言模型凭借其卓越的通用能力，被视为构建此类智能体的重要基础之一。目前的研究领域正沿着两个主要方向进行探索，以推动智能体技术的进一步发展。

依赖于人类监督的行为克隆（Behavior Cloning）方法，需要智能体逐步模仿专家提供的轨迹数据。这种方法虽然有效，但由于标注资源的限制，难以扩展。对环境的探索也较为有限，容易遇到性能或泛化性的瓶颈。
允许智能体根据环境反馈，不断提高能力的自我改进（Self Improving）方法，减少了对人类监督的依赖，同时丰富对环境的探索深度。然而，它们通常在特定任务的孤立环境中进行训练，得到一批无法有效泛化的专家智能体。
在这里插入图片描述

2 智能体进化的三大支柱

构建能够同时处理多种任务并在不同环境中自我进化的通用代理是人工智能领域的长期目标。当前的方法要么依赖于人类监督，让智能体模仿专家提供的轨迹，难以扩展；要么让智能体在孤立环境中学习，导致其泛化能力有限。为了实现在多种环境和任务中具有自我进化的潜力，文中首次探讨了一个具备基础能力的通用智能体，并确定了推动智能体自我进化的「三大关键支柱」，这些支柱是研究的核心要素。
多样化的环境和任务，其允许智能体动态且全面地进行交互、训练，而不是被局限于某个孤立的环境。
轨迹数据集，一个适当大小的轨迹数据集可以帮助智能体配备基本的指令遵循能力和基础任务知识。
有效的进化算法，一种有效且可扩展的进化算法可以激发智能体在不同难度环境中的泛化能力。

3 结论

论文中探讨了一个具备基础能力的通用智能体——在多种环境和任务中——自我进化的潜力。而文中提出的AgentGym 平台，是一个全新的，支持大语言模型智能体轨迹采样、自我进化、能力评测的框架，特点是提供多样、实时、并发和统一格式的反馈。旨在帮助人工智能社区更便利地探索具备通用能力的基于大语言模型的智能体。
论文链接：https://arxiv.org/abs/2406.04151
AgentGym代码仓库：https://github.com/WooooDyy/AgentGy

PS: 欢迎大家扫码关注公众号^_，我们一起在AI的世界中探索前行，期待共同进步！
在这里插入图片描述

hanscalZheng

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
智能体「自我进化」全流程--AgentGym

AI通用智能体的自我进化能力，并非遥不可及。基于大语言模型的智能体已经不再需要人类监督者的帮助，开始实现「自我进化」！这个智能体在学习了专家轨迹以后，获得了基础的通用能力，能够在更广泛、更真实的未知环境与任务上进行探索和学习，在外部的反馈下不断提升自己。最近，复旦大学语言与视觉团队推出的 AgentGym 平台，打通了大语言模型智能体「数据采样、训练微调、自我进化、能力评测」全流程。
复制链接

扫一扫

专栏目录