MARL
文章平均质量分 83
这梦想不休不止
这个作者很懒,什么都没留下…
展开
-
An Algorithm for Distributed Reinforement Learning in Cooperative Multi-Agent Systems
这篇文章是2000年发在ICML上的(如果我没记错的话),本篇博客主要是记录读后的总结,因为信息量比较大,只是混杂。区分两个概念:deterministic enviroment and stochastic enviroment:摘一段原文:随即环境下的区别是没有成熟的转移函数,所有的状态转移全都是互相独立运行的。在deterministic enviroment下:Q表的...原创 2018-10-07 23:04:58 · 852 阅读 · 1 评论 -
Mean Field Multi-Agent Reinforcement Learning
这是18 ICML的文章,文中的证明推理很多,主要借鉴一下思想。文章首先阐述了以前的一些找Nash平衡等方法对于大规模agent合作或者对抗的计算量要求很大。因此提出了这个算法。首先介绍了Stochastic Game的环境:第一个参数是状态空间,随后的N个参数是agent i的动作空间,在随后是agent i 的奖励函数,p是转移函数,y是折扣因子每个agent j 根据自己...原创 2018-10-16 17:16:03 · 6628 阅读 · 2 评论 -
Factorized Q-Learning for Large-Scale Multi-Agent Systems
这篇是19年AAAI的文章。和我上一篇写的文章思想上很相似。主要还是解决大规模agent的合作或者竞争问题。这篇文章的灵感来源于被广泛用于推荐系统的(Rendle 2012; Rendle and Schmidt-Thieme 2010) ,我们通过为复杂的环境与agents之间的关系建模为高阶,高维向量,然后通过分解(Factorization)去拟合它更加具体的可以描述为,MAQ ...原创 2018-10-16 21:08:30 · 1405 阅读 · 0 评论 -
Deep Reinforcement Learning Variants ofMulti-Agent Learning Algorithms
这是一个80页的论文,有效内容70页,10页reference。本篇论文主要介绍了两个算法,这篇论文写自2016年,也就是DQN发表一年后,所以这一年结合深度网络写rl的文章很多。下面我们就介绍一下本篇论文。我会摘取一些有用没用的大家都知道的以前的知识做铺垫。这篇文章主要讲述了两种算法,DRUQN(deep repeated update Q-network )和DLCQN(Deep ...原创 2018-10-10 19:19:56 · 878 阅读 · 0 评论