![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
多智能体强化学习
强化学习在多智能体下的研究
有点可爱的小学僧
一直在学习的小学僧
展开
-
阅读Qatten:A General Framework for Cooperative Multiagent Reinforcement Learning
写在前面:还是那句话,不要怕理论,一个知识点一个知识点地理解。胡适说:“怕什么真理无穷,进一步有一步的欢喜”。目录题目作者摘要方法理论证明实际方法实验写在后面题目作者2020.06,arXiv,v2。天津大学Jianye Hao老师组的工作,一作的Yaodong Yang也很厉害,可以重点关注郝老师他们组里的工作。摘要这篇同样是值分解路线下的一篇工作,作者认为之前的VDN,QMIX将Qtot,QiQ_{tot},Q_iQtot,Qi之间的关系做了假设限制(加性、单调),且缺少理论分析,而Q原创 2020-10-13 11:14:09 · 1468 阅读 · 0 评论 -
阅读QTRAN:Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning
写在前面:这篇文章我也是前前后后看了几遍,还在网上找了一些资料,但是感觉始终也没太看明白,就先把目前的理解写在这里,等以后有了新的理解再更新。要强调一点的是,这篇文章我刚读的时候是真的超级懵,但是不放弃偶尔就读偶尔就读,再结合别人的理解确实还是会有逐渐深入的理解的,所以以后遇到难的文章也不要丧气,平常心慢慢来(当然主要可能还是我的水平不行,读起来才这么难,hh)目录题目作者摘要相关工作介绍方法写在后面题目作者作者的单位是KAIST,韩国科学技术院,韩国比较好的一个大学,这个组在多智能体强化学习上也原创 2020-10-12 22:10:27 · 1913 阅读 · 2 评论 -
阅读QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
接上文VDN,本来我觉得QMIX全文会很难读,后来发现不是,哈哈,又畏难了,希望我挑战QTRAN和Qatten的时候也能这样。QMIX题目作者摘要方法实验和结果其他题目作者ICML18,作者是COMA那个团队,老师应该就是 Shimon Whiteson,好像是Peter Stone的学生,后者是做多智能体的大佬。摘要这篇文章是接着VDN做的,也就是对于基于team reward的多智能体合作问题,采用强化学习,使用集中式训练分布式执行(CTDE)中的值分解的方法,来训练智能体。之前我们也提到了原创 2020-09-29 20:02:15 · 1553 阅读 · 0 评论 -
阅读VDN:Value-Decomposition Networks For Cooperative Multi-Agent Learning Based On Team Reward
哇我先说一下,还真是技术/paper/理论像弹簧,我弱它就强,我一开始非常恐惧看这些啥啥分解的论文,最近看了VDN,QMIX,感觉真的就没我想得那么复杂,哎,惭愧惭愧,下一次会更勇敢一点的。我先放到这里,明天参加完活动顺利的话明天上午更一下,顺便把QMIX也更新一下,嘻嘻。...原创 2020-09-29 17:29:00 · 3515 阅读 · 6 评论 -
阅读COMA:Counterfactual Multi-Agent Policy Gradients
COMA题目作者摘要主要方法环境代码其他题目Counterfactual Multi-Agent Policy Gradients,AAAI2018作者牛津做多智能体强化学习的大佬组,后续多智能体强化学习的很多工作比如MAVEN也还是这个组做的,这里的Jakob N. Foerster很厉害,现在在FaceBook AI,他通信、多智能体竞争、合作都在研究。摘要单纯的强化学习用到多智能体环境下效果并不是很好,如果完全集中式学习,那么可能联合动作空间太大,学不了;或者说有些环境下要求执行的时候就原创 2020-09-23 22:06:43 · 1165 阅读 · 0 评论 -
阅读MADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
MADDPG题目作者摘要题目Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments作者UCB和OpenAI联系比较紧密,这里面 吴翼,Pieter Abbeel, Igor Mordatch都是大佬。摘要本文主要是研究如何利用强化学习来解决多智能体环境下智能体之间的合作与竞争问题,作者认为直接将单智能体的基于值或者策略的方法推广到多智能体都会有问题,如基于值的方法的非平稳性,智能体在同时学习,过去的经验也不原创 2020-09-22 22:28:50 · 662 阅读 · 0 评论