对手建模
这梦想不休不止
这个作者很懒,什么都没留下…
展开
-
Counterfactual multi-agent policy gradients.
这个是实验室做项目的时候用到的一个算法,我没仔细看原文,主要看了一下github上的code 一般智能体协作存在的问题: 1:joint action随着智能体增加指数级增大 2:由于部分可观测性,每个agent只能观测到自己的信息,没有信息共享(很多实验跑的都是全局信息当做局部,也就不存在这个问题,还有一些直接输入两个agent的信息,理论上也不存在) 3:使用联合动作空间获得的rewa...原创 2020-02-27 22:27:00 · 1835 阅读 · 2 评论 -
Modeling Others using Oneself in Multi-Agent Reinforcement Learning
ICML-18的文章,前几天我自己想的方法,就是对敌方和己方分别应用一个goal目标,只是我一直在考虑怎么从state中抽离出两个goal,而这篇文章思路的确很新奇,但是也有很明显的局限性。 老习惯,先上环境: 文章一共给了三个环境,第一个是coin,第二个是recipe,第三个是door 我先一个一个介绍环境设置,第一个环境是一个合作性质的环境 reward的设置: 有两个ag...原创 2020-02-26 18:40:00 · 935 阅读 · 3 评论 -
A Deep Bayesian Policy Reuse Approach Against Non-Stationary Agents
NIPS18的一篇文章,来分析一下。 首先这篇文章主要的思路: 我先介绍一下这个算法的实验环境,实验环境先行: 一共包括上面三个实验环境,第一个是两个agent合作分别达到自己的绿色区域G,当两个agent发生碰撞就会被惩罚,其中agent 0相当于有若干个定死的策略,他会随机采用这几个策略来进行游戏,agent o不会根据你的行动而改变自己的行为。 第二个环境是两个age...原创 2020-02-24 17:00:26 · 599 阅读 · 0 评论 -
Learning Policy Representations in Multiagent Systems
ICML18关于对手策略建模的文章: 主要顺一下思路: 其中Ei是agent i与其余n个agent对弈,sample出来条轨迹(obs和action对),然后将其中第一条轨迹进行上面一个f(x)映射函数的学习,学得一个映射,这个映射就是对对手的策略建模embedding,然后以这个embedding为基础,在第二条轨迹上进行模仿学习,即基于embedding的基础上在第二条轨迹上的obs...原创 2020-02-16 01:39:36 · 535 阅读 · 1 评论