Offline：IQL

收到求救信号

已于 2024-05-07 20:29:43 修改

阅读量634

点赞数 30

分类专栏：强化学习离线强化学习文章标签：机器学习人工智能

于 2024-05-07 20:22:13 首次发布

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/138543652

版权

强化学习同时被 2 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

ICLR 2022 Poster

Intro

部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作，这就容易导致采取了OOD的数据。因此，IQL取消max,，通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。

method

期望回归(Expectile Regression)

$\arg\min_{m_\tau}\mathbb{E}_{x\sim X}[L_2^\tau(x-m_\tau)],$
其中 $L_2^\tau(u)=|\tau-\mathbb{1}(u<0)|u^2.$ 函数如下所示
在这里插入图片描述
最右边的图可以看出，越大的 $\tau$ 使得预测值逼近上界。

IQL

IQL将上述的 $L_2^{\tau}$ 替换掉MSE来优化Q
$L(\theta)=\mathbb{E}_{(s,a,s',a')\sim\mathcal{D}}[L_2^\tau(r(s,a)+\gamma Q_{\hat{\theta}}(s',a')-Q_\theta(s,a))].$
然而上式存在一个问题。 $Q_{\hat{\theta}}$ 中采样的下一个动作具有一定的随机性，即使由较大的target Q也无法代表这是一个最优动作。因此这里来利用状态价值函数去并逼近这个Q:
$L_V(\psi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[L_2^\tau(Q_{\hat{\theta}}(s,a)-V_\psi(s))].$
采用均值就有效增加鲁棒性。而得到 V 后将通过MSE来优化Q网络：
$L_Q(\theta)=\mathbb{E}_{(s,a,s')\sim\mathcal{D}}[(r(s,a)+\gamma V_\psi(s')-Q_\theta(s,a))^2].$

AWR

价值函数完成优化后便是优化策略。这里采用的是AWR方法
$L_\pi(\phi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[\exp(\beta(Q_{\hat{\theta}}(s,a)-V_\psi(s)))\log\pi_\phi(a|s)]$

收到求救信号

关注

30
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
Offline：IQL

部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作，这就容易导致采取了OOD的数据。因此，IQL取消max,，通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。中采样的下一个动作具有一定的随机性，即使由较大的target Q也无法代表这是一个最优动作。采用均值就有效增加鲁棒性。价值函数完成优化后便是优化策略。这里采用的是AWR方法。然而上式存在一个问题。替换掉MSE来优化Q。
复制链接

扫一扫

专栏目录