【文献阅读】Accurate policy detection and efficient knowledge reuse against multi-strategic opponents

原文阅读:Accurate policy detection and efficient knowledge reuse against multi-strategic opponents - ScienceDirect

GB/T 7714-2015引用:Chen H, Liu Q, Fu K, Huang J, Wang C, Gong J. Accurate policy detection and efficient knowledge reuse against multi-strategic opponents[J]. Knowledge-Based Systems, 2022, 242: 108404.

摘要(简述)

        在马尔科夫博弈环境下,以往研究人员针对对手策略的改变是在一个episode内。为了更好地应对对手策略的持续变化,提出一种算法来实现准确的对手策略检测和高效的知识重用,在一个episode中考虑episode奖励和对手模型,同时使用episode间奖励和episode内奖励连续推断对手的身份。然后可以直接重用最佳响应策略,同时在每一episode后判断对手是否采用未知策略。对未知策略将之前学习的策略作为间接知识重用的相应选项。同时引入基于选项的知识重用(OKR)网络自适应重用就知识指导新策略的学习。

#前提

BPR、BPR+、Deep BPR+都是在一个episode后对对手策略进行更新

#整体框架

​​​​​​​
        离线阶段,通过策略库和已知对手模型的预估策略对抗,收集奖励并将其表示成高斯分布以此来建立性能模型P(U|τ , π ),其表示为策略π对于策略τ的性能表现。
        在线阶段,最简单的就是已知策略,先通过未知对手探测,查看对手是否已知,如果已知 则采用最优相应策略重用;如果未知,则通过OKR模块对未知对手策略进行学习并学习最优回应策略。

1具体方法

1对手策略检测

        文中通过计算一个episode的内部信念来跟踪对手策略作出响应,通过计算episode的外部信念与设定的阈值比较来判断对手是否使用新的策略。同时维护了一个先进先出队列א,将性能模型计算出一个阶段的奖励添加到队列中,

2策略重用
 

        该算法表示使用初始响应策略与对手进行对抗,记录对手行为元组添加到队列Q中更新episode内信念并计算综合信念,据此选择响应策略,最后更新综合信念。

3新策略的学习

        主要包含四个方面

1 option的构建:

        包含初始状态、episode内策略、和终止函数,其允许智能体在一段时间内执行一系列动作。

2 OKR网络的更新

        采用双重Q网络的结构,通过选项价值函数更新选项网络,使用KL散度来衡量当前策略与已知选项策略之间的距离,并将其作为指导损失,通过A-C来学习最佳响应策略。

3 对抗模型的更新

        在每个回合结束时,通过最小化损失函数来更新对手模型的参数。

实验结果不多赘述,见原文。
首次写,还望见谅。



        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值