读文章：Revisiting Bellman Errors for Offline Model Selection

taurusong

已于 2023-03-02 15:50:12 修改

阅读量58

点赞数

分类专栏：强化学习游戏文章标签：人工智能

于 2023-02-06 12:27:17 首次发布

原文链接：https://paperswithcode.com/paper/revisiting-bellman-errors-for-offline-model

版权

强化学习游戏专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Revisiting Bellman Errors for Offline Model Selection

**Offline reinforcement learning (ORL)离线强化学习：**与在线强化学习相对的一个概念，ORL有固定的数据集，数据是从静态数据集获取的；在线强化学习与环境有交互演进，数据是动态的从环境获取的。
**优点：**由于不需要和环境实时交互，ORL为研究的经济性和安全性提供了保障，在自动驾驶、健康医疗等领域中可以使用。

离线强化学习的数学模型

**静态数据集：**D={(s,a,r,s’)}，在状态s下，采取动作a，得到收益r，系统转移到新的状态s’。
Q-函数：是一个state-action函数。例如如下Q-函数
$Q^{\pi } \left ( s,a \right ) =\mathbb{E} _{\pi}[\sum_{t=0}^{\infty } \gamma ^{t} R_{t}|S_{0}=s,A_{0}=a ]$
其中， $E_{\pi}$ 代表马尔科夫决策过程在策略 $\pi$ 下的期望收益。 $\gamma \in [0,1)$ 为折扣系数。
这篇文章提出的离线模型选择offline model selection（OMS）问题：设有备选集合 $\mathcal{Q} =\left \{ {Q_{1},Q_{2}, \cdots ,Q_{M}} \right \}$ ，目标是选择最好的Q函数。
思考：折扣系数是变量，不同的折扣系数对应不同的Q函数。

Bellman误差

Bellman算子 $\mathcal{B} ^{*}$ ：
$\mathcal{B} ^{*}Q(s,a)=\mathbb{E} [R_{t}+\gamma \underset{a'\in A}{max}Q(S_{t+1},a')|S_{t}=s,A_{t}=a]$
Bellman误差： $(Q-\mathcal{B} ^{*}Q)(s,a)$ ，性质为当Q为最优的时候，Bellman误差为0。
对于一个 $Q_{m}$ 的评价可以使用均方Bellman误差,
$\mathbb{E}_{(s,a)\sim P^{\mu }}[(Q_{m}(s,a)-(\mathcal{B} ^{*}Q_{m})(s,a))^{2}]$

taurusong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
读文章：Revisiting Bellman Errors for Offline Model Selection

*Offline reinforcement learning (ORL)离线强化学习：**与在线强化学习相对的一个概念，ORL有固定的数据集，数据是从静态数据集获取的；在线强化学习与环境有交互演进，数据是动态的从环境获取的。**优点：**由于不需要和环境实时交互，ORL为研究的经济性和安全性提供了保障，在自动驾驶、健康医疗等领域中可以使用。
复制链接

扫一扫