06MARL经典算法 基于agent modelling


前言

基于JAL的算法需要对智能体的行为做出假设以便应用博弈知识求解策略,带来很多限制,根据其他智能体观察到的行为对其它智能体进行建模,预测其行为是agent modelling方法


agent modelling

在这里插入图片描述
agent model 能够构建其他智能体的模型,这些模型能够对它们的行为做出有效的预测,一般的智能体模型如图所示,在部分可观测的环境当中,agent model能够推断出所建模智能体对环境状态的信念
最常用的方法称为策略重构,目的是根据其他智能体的观测到过去的行为学习策略模型,学习策略模型的过程是有监督学习,数据采用所建模智能体的动作状态对 { ( s τ , a j τ ) } τ = 1 t \{(s^{\tau},a_{j}^{\tau})\}_{\tau=1}^{t} {(sτ,ajτ)}τ=1t,通过训练得到一系列策略的表示,建模智能体针对其他智能体选择最佳反应策略,以下将采用策略重构与最佳反应学习最优策略

一、Fictitious Play(虚拟博弈)

在虚拟博弈当中,智能体i构建关于j的概率分布模型,该模型是基于智能体j在过去采取的动作的数量决定的,公式如下
π ^ j ( a j ) = C ( a j ) ∑ a j ′ C ( a j ′ ) . \hat{\pi}_j(a_j)=\frac{C(a_j)}{\sum_{a_j^{\prime}}C(a_j^{\prime})}. π^j(aj)=ajC(aj)C(aj).
在每个episode中,智能体i根据智能体j的策略模型选择最佳反应,具体公式如下
B R i ( π ^ − i ) = arg ⁡ max ⁡ a i ∈ A i ∑ a − i ∈ A − i R i ( ⟨ a i , a − i ⟩ ) ∏ j ≠ i π ^ j ( a j ) \mathrm{BR}_i(\hat{\pi}_{-i})=\arg\max_{a_i\in A_i}\sum_{a_{-i}\in A_{-i}}\mathcal{R}_i(\langle a_i,a_{-i}\rangle)\prod_{j\neq i}\hat{\pi}_j(a_j) BRi(π^i)=argmaxaiAiaiAiRi(⟨ai,ai⟩)j=iπ^j(aj)
需要注意:虚拟博弈中最佳反应给出最佳动作而不是最佳策略,因此虚拟博弈并不能解决一些随机的均衡

二、JAL with agent modelling

结合联合动作价值函数与智能体模型与最佳反应得到智能体的概率分布,根据概率分布选择最佳动作,得到观测数据更新概率模型与Q值
在这里插入图片描述


  • 23
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值