06MARL经典算法基于agent modelling

最新推荐文章于 2024-08-12 18:10:44 发布

爱宇小菜涛

最新推荐文章于 2024-08-12 18:10:44 发布

阅读量838

点赞数 23

分类专栏：多智能体文章标签：算法

本文链接：https://blog.csdn.net/m0_66988867/article/details/136026546

版权

多智能体专栏收录该内容

14 篇文章 6 订阅

订阅专栏

文章目录

前言
agent modelling
一、Fictitious Play(虚拟博弈)
二、JAL with agent modelling

前言

基于JAL的算法需要对智能体的行为做出假设以便应用博弈知识求解策略，带来很多限制，根据其他智能体观察到的行为对其它智能体进行建模，预测其行为是agent modelling方法

agent modelling

在这里插入图片描述
agent model 能够构建其他智能体的模型，这些模型能够对它们的行为做出有效的预测，一般的智能体模型如图所示，在部分可观测的环境当中，agent model能够推断出所建模智能体对环境状态的信念
最常用的方法称为策略重构，目的是根据其他智能体的观测到过去的行为学习策略模型，学习策略模型的过程是有监督学习，数据采用所建模智能体的动作状态对 $\{(s^{\tau},a_{j}^{\tau})\}_{\tau=1}^{t}$ ，通过训练得到一系列策略的表示，建模智能体针对其他智能体选择最佳反应策略，以下将采用策略重构与最佳反应学习最优策略

一、Fictitious Play(虚拟博弈)

在虚拟博弈当中，智能体i构建关于j的概率分布模型，该模型是基于智能体j在过去采取的动作的数量决定的，公式如下
$\hat{\pi}_j(a_j)=\frac{C(a_j)}{\sum_{a_j^{\prime}}C(a_j^{\prime})}.$
在每个episode中，智能体i根据智能体j的策略模型选择最佳反应，具体公式如下
$\mathrm{BR}_i(\hat{\pi}_{-i})=\arg\max_{a_i\in A_i}\sum_{a_{-i}\in A_{-i}}\mathcal{R}_i(\langle a_i,a_{-i}\rangle)\prod_{j\neq i}\hat{\pi}_j(a_j)$
需要注意：虚拟博弈中最佳反应给出最佳动作而不是最佳策略，因此虚拟博弈并不能解决一些随机的均衡