【文献阅读】Accurate policy detection and efficient knowledge reuse against multi-strategic opponents

最新推荐文章于 2025-04-27 23:54:33 发布

ImBlocker

最新推荐文章于 2025-04-27 23:54:33 发布

阅读量1.3k

点赞数 33

分类专栏：文献阅读文章标签：机器学习

本文链接：https://blog.csdn.net/qq_57416284/article/details/142547691

版权

文献阅读专栏收录该内容

1 篇文章

订阅专栏

原文阅读：Accurate policy detection and efficient knowledge reuse against multi-strategic opponents - ScienceDirect

GB/T 7714-2015引用：Chen H, Liu Q, Fu K, Huang J, Wang C, Gong J. Accurate policy detection and efficient knowledge reuse against multi-strategic opponents[J]. Knowledge-Based Systems, 2022, 242: 108404.

摘要（简述）

在马尔科夫博弈环境下，以往研究人员针对对手策略的改变是在一个episode内。为了更好地应对对手策略的持续变化，提出一种算法来实现准确的对手策略检测和高效的知识重用，在一个episode中考虑episode奖励和对手模型，同时使用episode间奖励和episode内奖励连续推断对手的身份。然后可以直接重用最佳响应策略，同时在每一episode后判断对手是否采用未知策略。对未知策略将之前学习的策略作为间接知识重用的相应选项。同时引入基于选项的知识重用（OKR）网络自适应重用就知识指导新策略的学习。

#前提

BPR、BPR+、Deep BPR+都是在一个episode后对对手策略进行更新

#整体框架

离线阶段，通过策略库和已知对手模型的预估策略对抗，收集奖励并将其表示成高斯分布以此来建立性能模型P(U|τ , π )，其表示为策略π对于策略τ的性能表现。
在线阶段，最简单的就是已知策略，先通过未知对手探测，查看对手是否已知，如果已知则采用最优相应策略重用；如果未知，则通过OKR模块对未知对手策略进行学习并学习最优回应策略。