多智能体强化学习(一)总览

摘要

继AlphaGO系列的显著成功之后,2019年是蓬勃发展的一年,见证了多智能体强化学习(MARL)技术的显著进步。MARL对应于多智能体同时学习的多智能体系统中的学习问题。它是一个具有悠久历史的跨学科领域,包括博弈论、机器学习、随机控制、心理学和优化。虽然MARL在解决现实世界的游戏方面取得了相当大的经验成功,但文献中缺乏一个独立的概述来概述现代MARL方法的博弈理论基础,并总结了最新的进展。事实上,现有的调查已经过时,并没有完全涵盖2010年以来的最新发展。在这项工作中,我们提供了一篇关于MARL的专著,涵盖了研究前沿的基础和最新发展。

我们的工作被分为两部分。从1到4章,我们展示了自我包含的MARL的基本知识,包括问题公式、基本解决方案和现有的挑战。具体地说,我们通过两个有代表性的框架,即随机对策和扩展形式对策,以及可以解决的对策的不同变体。本部分的目标是让读者,即使是那些相关背景很少的读者,能够掌握地图研究的关键思想。从5到9章,我们概述了MARL算法的最新发展。从新的MARL方法分类法开始,我们对以前的调查论文进行了调查。在后面的部分中,我们强调了市场研究中的几个现代主题,包括q函数分解、多智能体软学习、网络多智能体MDP、随机势博弈、零和连续博弈、在线MDP、基于回合制的随机博弈、策略空间响应谕、一般博弈中的近似方法,以及具有无限代理博弈中的平均场类型学习。在每个主题中,我们都会同时选择最基本的算法和最前沿的算法。

我们的专著的目标是从博弈论的角度提供一个对当前最先进的地图技术的独立的评估。我们预计,这项工作将成为即将进入这个快速增长领域的新研究人员和希望获得全景并根据最新进展确定新方向的现有领域专家的垫脚石。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值