A Deep Bayesian Policy Reuse Approach Against Non-Stationary Agents

NIPS18的一篇文章,来分析一下。

首先这篇文章主要的思路:

 

我先介绍一下这个算法的实验环境,实验环境先行:

 

一共包括上面三个实验环境,第一个是两个agent合作分别达到自己的绿色区域G,当两个agent发生碰撞就会被惩罚,其中agent 0相当于有若干个定死的策略,他会随机采用这几个策略来进行游戏,agent o不会根据你的行动而改变自己的行为。

第二个环境是两个agent合作渠道相同的绿色区域G,agent设置同上

第三个环境是A需要组织O把球推入G内,理解为足球,当处于一个格子内,球会互换。同样agent是定死的,被抢了球对面agent也不会有什么特殊的反应。

下面是算法:

 

介绍一下算法的具体流程,整体思想就是自己有一个策略池子,池子里面有很多策略,这些策略都是针对固定的对手策略训练好的。一开始池子里面没有策略。首先先训练一个策略,给池子里面加一个策略以及该策略对应的对手。

假设对面没有更换策略,还是以往的策略,因为是online的检测,因此是需要打一会才能发现对手是不是使用了新的策略,我们用刚刚学到的唯一一个策略与该对手进行博弈(应该是根据B选,但是只有一个策略,所以没得选),然后得到一轮的奖励,根据这一轮的co-action以及reward来更新下面这个

信念网络,其中p是一个根据神经网络拟合的网络,这个网络的损失函数定义为:

其中P根据该网络定义为

可以理解为一个rollout中每一步s通过该网络输出加起来取平均值

拿新的交互数据,训练该网络,并计算p,代表与之前的相似度,避免reward相同时,没有区分度的问题。

不断更新B,知道移动平均(需要设置滑动窗口)reward低于某个阈值,此时进入到学习新策略阶段

在学习策略阶段,首先使用策略蒸馏方法将策略池内的所有方法都进行蒸馏,然后取前几层,后面的几层随机初始化,然后用

DQN的方式进行策略训练,知道获得一个效果很好的模型,然后更新策略池(包括对手,可以理解为index,新对手序号+1),

同时更新P,这里说一下我对P的理解:

第一种,每个对手池中的策略对应一个对手,同时对应一个对手网络

每次遇到新对手的交互信息,都传入各个网络中,计算kl

第二种,每个对手池中的策略对应一个对手,同时对应一个对手策略的高维表征

就一个网络,见谁拟合谁,对手就存一个高维表征。

具体哪一种我也不清楚。文章并没有什么细节。

 

这篇论文最大的问题,就是环境简单,对比实验感觉做的不充足,没有和其他的对手建模的方法比,但是这个算法是on line的这一点倒是不大一样,但是还是没有对比,只是和BPR比了一下。再有就是实验环境太简单,对手可以认为是固定的,raw pixel也比较牵强。总结来说是在BPR+上面增加了一个对手建模网络,同时使用了策略蒸馏,一个三种方法融合起来的方法。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值