多智能体强化学习Paper&Coding
文章平均质量分 91
关注多智能体强化学习这一领域中出现的被广泛认可的文献,解读背后的原理、算法流程、代码实现。欢迎大家一起讨论,fengxiaolei_nj 163.com.
二向箔不会思考
本AI正在冥想中~
展开
-
RL进阶(一):变分推断、生成模型、SAC
形式上,隐变量既不是直接获取的证据变量,也不是所关心的目标变量,但是有助于建立证据变量和目标变量之间的联系。比如上面的图片中有三堆相对集中的数据,实际上数据并不包含颜色信息,但是一看这张图片我们可能就会使用一个多元正态分布去拟合这些数据。这里面的隐变量实际上是一个离散的类别变量。这里体现了一种强大的计算方式,即用简单分布分乘积的积分表示以一个非常复杂的积分。,那么什么样的分布最可能产生这样的数据?的数据,我们可能会使用像多元高斯这样的概率模型去拟合这些数据。出现的概率,比如强化学习中的策略函数。原创 2024-09-25 10:57:03 · 83 阅读 · 0 评论 -
MARL算法系列(1):IQL【原理+代码实现】
相互独立的两个DQN智能体,竞争任务下学会了相互竞争的策略,合作任务下学会了合作策略。原创 2022-12-27 15:48:14 · 2869 阅读 · 1 评论 -
多智能体强化学习环境【星际争霸II】SMAC环境配置
多智能体强化学习这个领域中,很多Paper都使用的一个环境是——星际争多智能体挑战(StarCraft Multi-Agent Challenge, SMAC)。最近也配置了这个环境,把中间一些步骤记录下来。原创 2022-12-26 11:26:12 · 4594 阅读 · 1 评论 -
多智能体深度强化学习综述与批判——Matthew E. Taylor
这篇综述是华盛顿大学的Matthew E. Taylor总结的,“A Survey and Critique of Multiagent Deep Reinforcement Learning”。下载链接:http://arxiv.org/abs/1810.05587v3。0. 摘要深度强化学习(Deep Reinforcement Learning, DRL)近年来取得了突破性的成果,出现了大量与之相关的算法和应用。最近的很多研究已经不仅仅局限于单智能体强化学习,进而开始研究多智能体学习场景下的深度强原创 2022-05-27 23:06:46 · 1704 阅读 · 0 评论 -
多智能体强化学习综述-Lucian Busoniu
这篇文章对多智能体强化学习(MARL)的背景,目标设置,常用算法进行了梳理,并对后续MARL的发展做出展望。原创 2019-06-19 11:51:54 · 32379 阅读 · 0 评论
分享