Pangu-Agent

whaosoft143

已于 2023-12-26 13:56:38 修改

阅读量518

点赞数 7

分类专栏：人工智能文章标签：人工智能

于 2023-12-26 13:50:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29788741/article/details/135220097

版权

自 AI 诞生以来，开发能够解决和适应复杂工作的多任务智能体（Agent）一直是个重要的目标。有结构化推理和先验知识，智能体变得更加通用了。华为诺亚的盘古Agent来了，让智能体学会结构化推理

AI 智能体对于许多应用至关重要，研究者通常用强化学习方法通过环境交互来培养智能体的决策技能。基于模型和无模型的深度强化学习方法都已取得了广为人们所知的成就，例如 AlphaZero、改进的排序和乘法算法、无人机竞速以及聚变反应堆中的等离子体控制。这些成功涉及一个标准的强化学习管道，智能体在其中学习我们所说的外在功能 —— 一种直接与外界交互的策略，即响应环境刺激以最大化奖励信号。该函数通常是参数化神经网络，根据环境观察生成动作。

经典的强化学习方法使用单个映射函数来定义策略 π，但在复杂的环境中通常被证明是不够的，这与通用智能体在多个随机环境中交互、适应和学习的目标相矛盾。

在强化学习中引入的先验通常是特定于任务的，并且需要广泛的工程和领域专业知识。为了泛化，最近的研究已转向将大型语言模型（LLM）集成到智能体框架中，如 AutoGen、AutoGPT 和 AgentVerse 等工作。

近日，来自华为诺亚方舟实验室、伦敦大学学院（UCL）、牛津大学等机构的研究者提出了盘古智能体框架（Pangu-Agent）尝试来解决 AI 智能体面临的挑战。该研究作者包括伦敦大学学院计算机系教授汪军。

论文链接：https://arxiv.org/abs/2312.14878

该工作在两个关键方面区别于先前的框架：i）将智能体的内部思维过程形式化为结构化推理的形式；ii）展示了通过监督学习和强化学习来微调智能体的方法。

标准强化学习侧重于直接学习从感知中输出行动的策略。虽然人们习惯于通过深度网络架构参数化策略，但作者认为，当通过基础模型策略跨任务扩展智能体时，标准 RL 管道中缺乏固有推理结构可能会成为一个重大瓶颈，因为梯度无法为所有深度网络提供足够的监督。

盘古 Agent 框架展示了结构化推理如何帮助强化学习克服这些挑战，利用大规模基础模型提供先验知识并实现跨广泛领域的泛化能力。

据介绍，该工作的主要贡献包括：

证明了结构化推理在智能体框架中的重要性，盘古 Agent 的通用性足以有效涵盖现有智能体框架的任务范围。作为一个元智能体框架，它可以利用内部函数调用的顺序进行调整或微调，或者将决策委托给底层 LLM。使用者也可以轻松扩展智能体的功能，并组合或重用许多已经实现的方法。
作者在七个 LLM 和六个不同领域上进行了评估。该评估可用于告知研究人员如何初始化其智能体以及如何收集微调步骤的数据。
研究证明了框架的监督微调（SFT）和强化学习微调（RLFT）的影响。通过结构化推理，该工作成功实现了基于拒绝采样的 SFT 管道，大幅提高了 LLM 在 ALFWorld 领域的表现，成功率从 27% 增加到 82%。尽管 SFT 的好处已趋于稳定，但通过 RL 可以实现进一步增强，将 BabyAI 任务的成功率提高到 88%，甚至从 28% 提高到

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。