读文章:Revisiting Bellman Errors for Offline Model Selection

Revisiting Bellman Errors for Offline Model Selection

**Offline reinforcement learning (ORL)离线强化学习:**与在线强化学习相对的一个概念,ORL有固定的数据集,数据是从静态数据集获取的;在线强化学习与环境有交互演进,数据是动态的从环境获取的。
**优点:**由于不需要和环境实时交互,ORL为研究的经济性和安全性提供了保障,在自动驾驶、健康医疗等领域中可以使用。

离线强化学习的数学模型

**静态数据集:**D={(s,a,r,s’)},在状态s下,采取动作a,得到收益r,系统转移到新的状态s’。
Q-函数:是一个state-action函数。例如如下Q-函数
Q π ( s , a ) = E π [ ∑ t = 0 ∞ γ t R t ∣ S 0 = s , A 0 = a ] Q^{\pi } \left ( s,a \right ) =\mathbb{E} _{\pi}[\sum_{t=0}^{\infty } \gamma ^{t} R_{t}|S_{0}=s,A_{0}=a ] Qπ(s,a)=Eπ[t=0γtRtS0=s,A0=a]
其中, E π E_{\pi} Eπ代表马尔科夫决策过程在策略 π \pi π下的期望收益。 γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ[0,1) 为折扣系数。
这篇文章提出的离线模型选择offline model selection(OMS)问题:设有备选集合 Q = { Q 1 , Q 2 , ⋯   , Q M } \mathcal{Q} =\left \{ {Q_{1},Q_{2}, \cdots ,Q_{M}} \right \} Q={Q1,Q2,,QM},目标是选择最好的Q函数。
思考:折扣系数是变量,不同的折扣系数对应不同的Q函数。

Bellman误差

Bellman算子 B ∗ \mathcal{B} ^{*} B
B ∗ Q ( s , a ) = E [ R t + γ m a x a ′ ∈ A Q ( S t + 1 , a ′ ) ∣ S t = s , A t = a ] \mathcal{B} ^{*}Q(s,a)=\mathbb{E} [R_{t}+\gamma \underset{a'\in A}{max}Q(S_{t+1},a')|S_{t}=s,A_{t}=a] BQ(s,a)=E[Rt+γaAmaxQ(St+1,a)St=s,At=a]
Bellman误差: ( Q − B ∗ Q ) ( s , a ) (Q-\mathcal{B} ^{*}Q)(s,a) (QBQ)(s,a),性质为当Q为最优的时候,Bellman误差为0。
对于一个 Q m Q_{m} Qm的评价可以使用均方Bellman误差,
E ( s , a ) ∼ P μ [ ( Q m ( s , a ) − ( B ∗ Q m ) ( s , a ) ) 2 ] \mathbb{E}_{(s,a)\sim P^{\mu }}[(Q_{m}(s,a)-(\mathcal{B} ^{*}Q_{m})(s,a))^{2}] E(s,a)Pμ[(Qm(s,a)(BQm)(s,a))2]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值