NIPS18的一篇文章,来分析一下。
首先这篇文章主要的思路:
我先介绍一下这个算法的实验环境,实验环境先行:
一共包括上面三个实验环境,第一个是两个agent合作分别达到自己的绿色区域G,当两个agent发生碰撞就会被惩罚,其中agent 0相当于有若干个定死的策略,他会随机采用这几个策略来进行游戏,agent o不会根据你的行动而改变自己的行为。
第二个环境是两个agent合作渠道相同的绿色区域G,agent设置同上
第三个环境是A需要组织O把球推入G内,理解为足球,当处于一个格子内,球会互换。同样agent是定死的,被抢了球对面agent也不会有什么特殊的反应。
下面是算法:
介绍一下算法的具体流程,整体思想就是自己有一个策略池子,池子里面有很多策略,这些策略都是针对固定的对手策略训练好的。一开始池子里面没有策略。首先先训练一个策略,给池子里面加一个策略以及该策略对应的对手。
假设对面没有更换策略,还是以往的策略,因为是online的检测,因此是需要打一会才能发现对手是不是使用了新的策略,我们用刚刚学到的唯一一个策略与该对手进行博弈(应该是根据B选,但是只有一个策略,所以没得选),然后得到一轮的奖励,根据这一轮的co-action以及reward来更新下面这个
信念网络,其中p是一个根据神经网络拟合的网络,这个网络的损失函数定义为:
其中P根据该网络定义为
可以理解为一个rollout中每一步s通过该网络输出加起来取平均值
拿新的交互数据,训练该网络,并计算p,代表与之前的相似度,避免reward相同时,没有区分度的问题。
不断更新B,知道移动平均(需要设置滑动窗口)reward低于某个阈值,此时进入到学习新策略阶段
在学习策略阶段,首先使用策略蒸馏方法将策略池内的所有方法都进行蒸馏,然后取前几层,后面的几层随机初始化,然后用
DQN的方式进行策略训练,知道获得一个效果很好的模型,然后更新策略池(包括对手,可以理解为index,新对手序号+1),
同时更新P,这里说一下我对P的理解:
第一种,每个对手池中的策略对应一个对手,同时对应一个对手网络
每次遇到新对手的交互信息,都传入各个网络中,计算kl
第二种,每个对手池中的策略对应一个对手,同时对应一个对手策略的高维表征
就一个网络,见谁拟合谁,对手就存一个高维表征。
具体哪一种我也不清楚。文章并没有什么细节。
这篇论文最大的问题,就是环境简单,对比实验感觉做的不充足,没有和其他的对手建模的方法比,但是这个算法是on line的这一点倒是不大一样,但是还是没有对比,只是和BPR比了一下。再有就是实验环境太简单,对手可以认为是固定的,raw pixel也比较牵强。总结来说是在BPR+上面增加了一个对手建模网络,同时使用了策略蒸馏,一个三种方法融合起来的方法。