GB/T 7714-2015引用:Chen H, Liu Q, Fu K, Huang J, Wang C, Gong J. Accurate policy detection and efficient knowledge reuse against multi-strategic opponents[J]. Knowledge-Based Systems, 2022, 242: 108404.
摘要(简述)
在马尔科夫博弈环境下,以往研究人员针对对手策略的改变是在一个episode内。为了更好地应对对手策略的持续变化,提出一种算法来实现准确的对手策略检测和高效的知识重用,在一个episode中考虑episode奖励和对手模型,同时使用episode间奖励和episode内奖励连续推断对手的身份。然后可以直接重用最佳响应策略,同时在每一episode后判断对手是否采用未知策略。对未知策略将之前学习的策略作为间接知识重用的相应选项。同时引入基于选项的知识重用(OKR)网络自适应重用就知识指导新策略的学习。
#前提
BPR、BPR+、Deep BPR+都是在一个episode后对对手策略进行更新
#整体框架
离线阶段,通过策略库和已知对手模型的预估策略对抗,收集奖励并将其表示成高斯分布以此来建立性能模型P(U|τ , π ),其表示为策略π对于策略τ的性能表现。
在线阶段,最简单的就是已知策略,先通过未知对手探测,查看对手是否已知,如果已知 则采用最优相应策略重用;如果未知,则通过OKR模块对未知对手策略进行学习并学习最优回应策略。
1具体方法
1对手策略检测
文中通过计算一个episode的内部信念来跟踪对手策略作出响应,通过计算episode的外部信念与设定的阈值比较来判断对手是否使用新的策略。同时维护了一个先进先出队列א,将性能模型计算出一个阶段的奖励添加到队列中,
2策略重用
该算法表示使用初始响应策略与对手进行对抗,记录对手行为元组添加到队列Q中更新episode内信念并计算综合信念,据此选择响应策略,最后更新综合信念。
3新策略的学习
主要包含四个方面
1 option的构建:
包含初始状态、episode内策略、和终止函数,其允许智能体在一段时间内执行一系列动作。
2 OKR网络的更新
采用双重Q网络的结构,通过选项价值函数更新选项网络,使用KL散度来衡量当前策略与已知选项策略之间的距离,并将其作为指导损失,通过A-C来学习最佳响应策略。
3 对抗模型的更新
在每个回合结束时,通过最小化损失函数来更新对手模型的参数。
实验结果不多赘述,见原文。
首次写,还望见谅。