强化学习新突破:情节记忆与奖励机制引领多智能体协作

简介

​本推文介绍了韩国科学技术院发表在人工智能顶会ICLR 2024上的论文《Efficient Episodic Memory Utilization of Cooperative Multi-Agent Reinforcement Learning》。该论文提出创新性高效情节记忆利用(Efficient Episodic Memory Utilization,EMU)方法,旨在解决合作多智能体强化学习(Cooperative Multi-Agent Reinforcement Learning,C-MARL)中的两个关键问题:加速学习过程与避免局部最优。通过在《星际争霸II》和《谷歌足球比赛》两种复杂环境中的实验评估,研究团队证明了高效情节记忆利用方法在性能上显著优于现有多智能体强化学习方法。

论文链接:https://openreview.net/forum?id=LjivA1SLZ6

代码链接:https://github.com/HyunghoNa/EMU

01.研究背景

合作多智能体强化学习旨在通过多个智能体协作完成共同目标(如击败敌人或得分)。尽管当前的合作多智能体强化学习算法在某些任务中表现出色,但往往需要较长的训练时间,且在面对复杂任务时容易陷入局部最优,无法找到全局最优策略。这一瓶颈在实际应用中尤其显著,特别是在任务环境复杂且需要高效协作的场景中。

针对这一问题,研究团队提出了高效情节记忆利用方法,旨在提升训练效率和策略质量。高效情节记忆利用的设计主要有两个目标:

1、加速强化学习:通过提取历史经验中的语义一致记忆,加速智能体的学习过程;

2、防止局部最优解:通过设计情节奖励机制,引导智能体朝向更理想的状态过渡,避免局部收敛问题。

高效情节记忆利用方法的核心思想是将情节记忆与策略学习过程深度结合,使智能体在面对未知任务时能够充分利用过往经验,探索更多可能的有效策略。

02.研究方法

图1概述了高效情节记忆利用框架的整体结构。该框架包含了两个关键组件:情节记忆嵌入和情节激励奖励机制。

图1 高效情节记忆利用框架概述

2.1 情节记忆嵌入

论文提出了一种解码器结构,用于重构状态并预测最高回报,其嵌入函数称为EmbNet。图1(c)展示了基于EmbNet的确定性条件自编码器(dCAE),其将全局状态按时间步转化为有意义的低维嵌入向量,随后解码器预测全局状态的回报值,并通过状态重构确保特征空间的平滑性。在此过程中,智能体可通过探索性记忆回调,召回相似情境下的历史经验,从而实现更高效的学习。这种嵌入结构不仅提升了记忆空间的利用效率,还支持智能体在接近当前状态时进行更具针对性的探索,减少无效尝试。

图2 展示了t-SNE(t分布随机邻域嵌入)对采样嵌入的结果。颜色从红到紫(彩虹色)表示从低回报到高回报

2.2 情节激励奖励机制

图1(d)展示了情节激励奖励机制的设计,该机制通过标记任务中高回报状态(如在《星际争霸II》中摧毁所有敌人或在《谷歌足球比赛》中进球),给予额外奖励来引导智能体探索更优状态。智能体根据状态的“可取性”分配奖励,并将期望奖励整合到Q-Learning算法中,优化时序差分目标的计算过程。通过这一设计,智能体优先探索高回报潜力的状态,有效规避局部最优陷阱。

图3 展示了情节激励。测试轨迹被绘制在嵌入空间中,并带有点状标记的采样记忆。星形标记和数字分别表示状态和时间步在情节中的可取性。颜色的含义与图2相同

03.实验结果

研究团队设计了一系列实验,重点回答以下问题:

问题1:高效情节记忆利用与当前最先进的多智能体强化学习框架相比如何?

问题2:状态嵌入如何影响嵌入空间并提升性能?

问题3:情节激励对性能改进有何作用?

该论文通过《星际争霸II》和《谷歌足球比赛》等复杂多智能体任务,系统评估了高效情节记忆利用相较于情节记忆控制器(EMC)及其他对比方法(如QMIX(混合值函数网络)、QPLEX(队列优化网络)、CDS(集群化去中心调度))的性能表现。为进一步验证高效情节记忆利用方法的通用性,论文还在QPLEX和CDS框架中实现了两个EMU版本(即基于高效情节记忆利用的QPLEX和CDS),充分展现其与多智能体强化学习框架的兼容性。

3.1 针对问题1:《星际争霸II》的比较评估

图4展示了高效情节记忆利用在不同《星际争霸II》地图上的整体性能表现。得益于高效记忆利用和情节激励机制的结合,基于高效情节记忆利用方法增强的QPLEX和CDS明显优于其原始版本,尤其是在高难度地图中,显著加速了最优策略的收敛速度。

图4 高效情节记忆利用与比较算法在三个简单和困难的《星际争霸II》地图(1c3s5z、3s_vs_5z和5m_vs_6m)以及三个极难的《星际争霸II》地图(MMM2、6h_vs_8z和3s5z_vs_3s6z)上的性能比较

3.2 针对问题1:《谷歌足球比赛》的比较评估

在《谷歌足球比赛》中的实验进一步验证了高效情节记忆利用在复杂任务环境中的性能优势。在该任务中,CDS和基于高效情节记忆利用的CDS不依赖观测中的智能体索引信息,因为它们包含预测网络;相比之下,其他比较算法(如QMIX、EMC、QPLEX)则需要使用智能体身份信息。此外,为了优化学习效率,该研究未引入优先经验回放等额外算法。实验结果表明,高效情节记忆利用显著提升了整体性能,尤其在早期学习阶段,利用语义相似的记忆迅速找到获胜或得分策略。

图5 高效情节记忆利用与比较算法在《谷歌足球比赛》上的性能比较

3.3 针对问题2:参数化和消融研究

该论文还研究了状态嵌入差异的阈值及状态嵌入网络结构设计对性能的影响。为了更精确地量化学习质量与效率,研究提出了以总体胜率作为评估指标,该指标综合考虑了训练速度和最终胜率。在选定的《星际争霸II》地图上,论文通过不同阈值与网络结构设计(如随机投影、EmbNet、dCAE)的组合,对总体胜率进行了详细测量。

图6 在《星际争霸II》地图上,根据不同的阈值和嵌入网络设计选择,测量总体胜率的表现

图7 根据不同的阈值和嵌入网络设计选择,衡量最终胜率的表现

图6和图7分别展示了不同阈值下的总体胜率和训练结束时的测试胜率,结果采用对数刻度表示。实验表明,dCAE结构在所有阈值下均表现出最佳训练效率,同时其最终策略的质量与其他设计选择相当。而EmbNet在训练过程中可能因状态回报相似而选择不同状态进行探索,导致过度的记忆回调,从而影响学习效果,无法获得最优策略。

图8展示了高效情节记忆利用在不同阈值下的学习曲线。结果显示,在极难的多智能体任务中(如《星际争霸II》的6h_vs_8z和《谷歌足球比赛》的CA_hard),适当的阈值能够显著提升模型表现,达到最佳效果。

图8 不同阈值在复杂多智能体强化学习任务中的效果

3.4 针对问题3:进一步的消融研究

论文还通过消融研究进一步验证了情节激励的有效性。移除情节激励的模型被记为No-EI,移除嵌入网络的模型被记为No-SE,同时移除两部分的模型被记为Original。研究在高难度的《星际争霸II》地图上评估了这些模型的性能差异。

图9显示了情节激励对学习性能的显著提升作用。特别是,在不同随机种子下,传统情节控制的模型(如QPLEX-No-EI和CDS-No-EI)性能差异较大,表明单纯依赖情节控制可能阻碍最优策略的学习。而通过情节激励选择性地鼓励期望的状态转换,模型能够有效避免局部收敛问题,提升性能稳定性。

图9 通过复杂多智能体强化学习任务进行情节激励的消融研究

3.5 定性分析和可视化

在可视化分析中,研究进一步探讨了情节激励机制如何影响智能体的记忆选择及信息传达的准确性。图10展示了在不同随机种子下的测试场景,每个快照都标注了对应的时间步。在图11中,每个情节的轨迹被投射到情节缓冲器的嵌入空间中。

图10 测试情节的可视化

图11 嵌入空间中的测试轨迹

具体而言,在图10中,案例(a)成功击败了所有敌人,而案例(b)则以失败告终。两者在时间步t=10之前轨迹相似,均专注于击杀一个敌人并保护盟友。然而在t=12时,案例(b)失去了一名智能体,导致其轨迹与案例(a)开始分叉。在t=14至t=16之间,案例(b)仍有获胜机会,但由于在t=20左右连续失去三名盟友,最终未能标记理想状态(未标星),从而导致失败。图11的嵌入空间分析清晰地展现了情节激励的效果,表明该机制能够有效引导智能体优先选择理想状态并避免不利决策。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值