A Deep Bayesian Policy Reuse Approach Against Non-Stationary Agents

最新推荐文章于 2023-04-20 11:34:26 发布

这梦想不休不止

最新推荐文章于 2023-04-20 11:34:26 发布

阅读量553

点赞数

分类专栏：对手建模

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36616268/article/details/104412789

版权

对手建模专栏收录该内容

4 篇文章 3 订阅

订阅专栏

NIPS18的一篇文章，来分析一下。

首先这篇文章主要的思路：

我先介绍一下这个算法的实验环境，实验环境先行：

一共包括上面三个实验环境，第一个是两个agent合作分别达到自己的绿色区域G，当两个agent发生碰撞就会被惩罚，其中agent 0相当于有若干个定死的策略，他会随机采用这几个策略来进行游戏，agent o不会根据你的行动而改变自己的行为。

第二个环境是两个agent合作渠道相同的绿色区域G，agent设置同上

第三个环境是A需要组织O把球推入G内，理解为足球，当处于一个格子内，球会互换。同样agent是定死的，被抢了球对面agent也不会有什么特殊的反应。

下面是算法：

介绍一下算法的具体流程，整体思想就是自己有一个策略池子，池子里面有很多策略，这些策略都是针对固定的对手策略训练好的。一开始池子里面没有策略。首先先训练一个策略，给池子里面加一个策略以及该策略对应的对手。

假设对面没有更换策略，还是以往的策略，因为是online的检测，因此是需要打一会才能发现对手是不是使用了新的策略，我们用刚刚学到的唯一一个策略与该对手进行博弈（应该是根据B选，但是只有一个策略，所以没得选），然后得到一轮的奖励，根据这一轮的co-action以及reward来更新下面这个

信念网络，其中p是一个根据神经网络拟合的网络，这个网络的损失函数定义为：

其中P根据该网络定义为

可以理解为一个rollout中每一步s通过该网络输出加起来取平均值

拿新的交互数据，训练该网络，并计算p，代表与之前的相似度，避免reward相同时，没有区分度的问题。

不断更新B，知道移动平均（需要设置滑动窗口）reward低于某个阈值，此时进入到学习新策略阶段

在学习策略阶段，首先使用策略蒸馏方法将策略池内的所有方法都进行蒸馏，然后取前几层，后面的几层随机初始化，然后用

DQN的方式进行策略训练，知道获得一个效果很好的模型，然后更新策略池（包括对手，可以理解为index，新对手序号+1），

同时更新P，这里说一下我对P的理解：

第一种，每个对手池中的策略对应一个对手，同时对应一个对手网络

每次遇到新对手的交互信息，都传入各个网络中，计算kl

第二种，每个对手池中的策略对应一个对手，同时对应一个对手策略的高维表征

就一个网络，见谁拟合谁，对手就存一个高维表征。

具体哪一种我也不清楚。文章并没有什么细节。

这篇论文最大的问题，就是环境简单，对比实验感觉做的不充足，没有和其他的对手建模的方法比，但是这个算法是on line的这一点倒是不大一样，但是还是没有对比，只是和BPR比了一下。再有就是实验环境太简单，对手可以认为是固定的，raw pixel也比较牵强。总结来说是在BPR+上面增加了一个对手建模网络，同时使用了策略蒸馏，一个三种方法融合起来的方法。

这梦想不休不止

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A Deep Bayesian Policy Reuse Approach Against Non-Stationary Agents

NIPS18的一篇文章，来分析一下。首先这篇文章主要的思路：我先介绍一下这个算法的实验环境，实验环境先行：一共包括上面三个实验环境，第一个是两个agent合作分别达到自己的绿色区域G，当两个agent发生碰撞就会被惩罚，其中agent 0相当于有若干个定死的策略，他会随机采用这几个策略来进行游戏，agent o不会根据你的行动而改变自己的行为。第二个环境是两个age...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。