Predictable MDP Abstraction for Unsupervised Model-Based RL

ICML 2023
paper
code

Intro

文章提出了一种用于无监督基于模型强化学的方法,称为可预测MDP抽象(Predictable MDP Abstraction, PMA)。在MBRL中,一个关键部分是能够准确建模环境动力学动态模型。然而,这个预测模型误差可能会降低策略性能,并且在复杂的马尔可夫决策过程中(MDPs),准确的预测可能非常困难。

为了缓解这个问题,作者提出了PMA,它不是在原始MDP上训练预测模型,而是在一个变换后的MDP上训练模型,这个变换后的MDP通过学习动作空间中可预测和易于建模的动作,同时尽可能覆盖原始的状态-动作空间。这样,模型学习变得更容易和更准确,从而允许鲁棒、稳定的基于模型的规划或基于模型的RL。这种变换是在无监督的方式下学习的,在用户指定任何任务之前。然后,可以零样本(zero-shot)解决下游任务,而无需额外的环境交互。作者从理论上分析了PMA,并通过一系列基准环境证明了PMA相对于以前的无监督MBRL方法有显著的改进。

Method

PMA 所构建的MDP过程结构如下
在这里插入图片描述

而对于可预测的MDP抽象需要满足三个需求

  1. 基于隐变量的状态转移函数 p ( s ′ ∣ s , z ) p(s'|s,z) p(ss,z)得到的状态能够尽可能被预测到, 即最小化预测不确定性
  2. 潜在动作的结果应该彼此尽可能不同(即最大化动作多样性以保持原始 MDP 的大部分表现力)
  3. 潜在 MDP 中的转换应尽可能覆盖原始转换(即最小化认知不确定性来鼓励探索)

基于上述需求构建如下信息论目标
max ⁡ π z , π e I ( S ′ ; ( Z , Θ ) ∣ D ) , \max_{\pi_z,\pi_e}I(S';(Z,\Theta)|\mathcal{D}), πz,πemaxI(S;(Z,Θ)D),
其中D表示训练数据集以及Z, Θ \Theta Θ表示潜在预测模型 p ^ z ( s ′ ∣ s , z ; θ ) \hat{p}_z(s^{\prime}|s,z;\theta) p^z(ss,z;θ)参数。该式子进一步分解为:
在这里插入图片描述
这三项就分别满足上述的三个需求。特别的是第三项中,在已知状态转移后最小化参数的不确定性。

原始的互信息估计计算困难,因此对等式(4)第一项做如下近似估计
在这里插入图片描述
而对于information gain部分则是采用对ensemble model的不确定性估计近似
在这里插入图片描述
上述两个部分相加得到额外的奖励函数。结合基于模型的算法训练策略以及潜在动力学模型。而在下游任务进行zero-shot的实验,因为出现OOD的问题,这里加入了集成模型间最大分歧作为惩罚项
u ( s , z ) = − λ ⋅ max ⁡ i , j ∈ [ E ] ∥ μ ( s , z ; θ i ) − μ ( s , z ; θ j ) ∥ 2 . ( 11 ) u(s,z)=-\lambda\cdot\max_{i,j\in[E]}\|\mu(s,z;\theta_i)-\mu(s,z;\theta_j)\|^2.(11) u(s,z)=λi,j[E]maxμ(s,z;θi)μ(s,z;θj)2.(11)

伪代码

在这里插入图片描述

结果

在这里插入图片描述

  • 27
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值