【文献阅读】Accurate policy detection and efficient knowledge reuse against multi-strategic opponents

原文阅读:Accurate policy detection and efficient knowledge reuse against multi-strategic opponents - ScienceDirect

GB/T 7714-2015引用:Chen H, Liu Q, Fu K, Huang J, Wang C, Gong J. Accurate policy detection and efficient knowledge reuse against multi-strategic opponents[J]. Knowledge-Based Systems, 2022, 242: 108404.

摘要(简述)

        在马尔科夫博弈环境下,以往研究人员针对对手策略的改变是在一个episode内。为了更好地应对对手策略的持续变化,提出一种算法来实现准确的对手策略检测和高效的知识重用,在一个episode中考虑episode奖励和对手模型,同时使用episode间奖励和episode内奖励连续推断对手的身份。然后可以直接重用最佳响应策略,同时在每一episode后判断对手是否采用未知策略。对未知策略将之前学习的策略作为间接知识重用的相应选项。同时引入基于选项的知识重用(OKR)网络自适应重用就知识指导新策略的学习。

#前提

BPR、BPR+、Deep BPR+都是在一个episode后对对手策略进行更新

#整体框架

​​​​​​​
        离线阶段,通过策略库和已知对手模型的预估策略对抗,收集奖励并将其表示成高斯分布以此来建立性能模型P(U|τ , π ),其表示为策略π对于策略τ的性能表现。
        在线阶段,最简单的就是已知策略,先通过未知对手探测,查看对手是否已知,如果已知 则采用最优相应策略重用;如果未知,则通过OKR模块对未知对手策略进行学习并学习最优回应策略。

1具体方法

1对手策略检测

        文中通过计算一个episode的内部信念来跟踪对手策略作出响应,通过计算episode的外部信念与设定的阈值比较来判断对手是否使用新的策略。同时维护了一个先进先出队列א,将性能模型计算出一个阶段的奖励添加到队列中,

2策略重用
 

        该算法表示使用初始响应策略与对手进行对抗,记录对手行为元组添加到队列Q中更新episode内信念并计算综合信念,据此选择响应策略,最后更新综合信念。

3新策略的学习

        主要包含四个方面

1 option的构建:

        包含初始状态、episode内策略、和终止函数,其允许智能体在一段时间内执行一系列动作。

2 OKR网络的更新

        采用双重Q网络的结构,通过选项价值函数更新选项网络,使用KL散度来衡量当前策略与已知选项策略之间的距离,并将其作为指导损失,通过A-C来学习最佳响应策略。

3 对抗模型的更新

        在每个回合结束时,通过最小化损失函数来更新对手模型的参数。

实验结果不多赘述,见原文。
首次写,还望见谅。



        

你好!对于 "Region-Based Convolutional Networks for Accurate Object Detection and Segmentation" 这篇论文的复现,我可以给你一些指导。该论文介绍了一种基于区域的卷积神经网络方法,用于准确的物体检测和分割。 首先,你需要了解论文中提出的方法的核心思想和技术细节。然后,你可以按照论文中描述的步骤进行复现。以下是一些可能的步骤: 1. 数据集准备:根据论文中使用的数据集,你需要获取相应的训练集和测试集数据。确保数据集包含物体检测和分割的标注信息。 2. 模型架构:根据论文中描述的模型架构,你可以使用深度学习框架(如TensorFlow、PyTorch等)来构建模型。确保按照论文中提到的网络层次结构、连接方式和参数设置来构建模型。 3. 损失函数:根据论文中提到的损失函数,你可以实现相应的损失函数来衡量检测和分割任务的性能。 4. 训练过程:使用训练集数据对模型进行训练。根据论文中提到的训练策略和超参数设置,你可以使用反向传播算法来更新模型的权重。 5. 测试过程:使用测试集数据对训练好的模型进行测试。评估模型在物体检测和分割任务上的性能,并与论文中的结果进行比较。 请注意,由于论文可能没有提供完整的代码实现,你可能需要根据论文的描述进行一定的调整和优化。 希望这些步骤能为你复现该论文提供一些帮助!如果你有任何进一步的问题,欢迎继续提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值