《强化学习》第四章 动态规划


动态规划(Dynamic Programming,DP)是一类 优化方法,在给定一个用马尔科夫决策过程(MDP)描述的 完备环境模型的情况下,其可以计算 最优的策略

本章中,我们假设环境是一个有限MDP。也就是说,我们假设状态集合S、动作集合A和收益集合R是有限的,并且整个系统的动态特性由对于任意 s ∈ S 、 a ∈ A ( s ) 、 r ∈ R 和 s ′ ∈ S + ( S + s \in S、a \in A(s)、r \in R 和s' \in S^+(S^+ sSaA(s)rRsS+(S+表示在分幕式任务下S加上一个终止状态)的四参数概率分布p(s’,r|s,a)给出。

在强化学习中,DP的核心思想是使用价值函数来结构化地组织对最优策略的搜索。在本章中,我们讨论如何使用DP来计算第3章中定义的价值函数。如前所述,一旦我们得到了满足贝尔曼最优方程的价值函数 v ∗ v_* v q ∗ q_* q,得到最优策略就很容易了。对于任意 s ∈ S 、 a ∈ A ( s ) 、 r ∈ R 和 s ′ ∈ S + s \in S、a \in A(s)、r \in R 和s' \in S^+ sSaA(s)rRsS+,有
v ∗ ( s ) = m a x a E [ R t + 1 + γ v ∗ ( S t + 1 ) ∣ S t = s , A t = a ] = m a x a ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v ∗ ( s ′ ) ] \begin{aligned} v_*(s)&=max_a\mathbb{E}[R_t+1+\gamma v_*(S_{t+1})|S_t=s,A_t=a] \\&=max_a\sum_{s',r}p(s',r|s,a)[r+\gamma v_*(s')] \end{aligned} v(s)=maxaE[Rt+1+γv(St+1)St=s,At=a]=maxas,rp(s,rs,a)[r+γv(s)]

q ∗ ( s , a ) = E [ R t + 1 + γ m a x a ′ q ∗ ( S t + 1 , a ′ ) ∣ S t = a , A t = a ] = ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ m a x a ′ q ∗ ( s ′ , a ′ ) ] , \begin{aligned} q_*(s,a)&=\mathbb{E}[R_{t+1}+\gamma max_{a'}q_*(S_{t+1,a'})|S_t=a,A_t=a] \\&=\sum_{s',r}p(s',r|s,a)[r+\gamma max_{a'}q_*(s',a')], \end{aligned} q(s,a)=E[Rt+1+γmaxaq(St+1,a)St=a,At=a]=s,rp(s,rs,a)[r+γmaxaq(s,a)],
由上可见,通过将贝尔曼方程转化成近似逼近理想价值函数的递归更新公式,我们就得到了DP算法

4.1 策略评估(预测)

首先,我们思考对于任意一个策略π,如何计算其状态价值函数 v π v_\pi vπ,这在DP文献中被称为策略评估。我们有时也称其为预测问题。回顾第3章的内容,对于任意 s ∈ S s \in S sS
v π ( s ) ≐ E π [ G t ∣ S t = s ] = E π [ R t + 1 + γ G t + 1 ∣ S t = s ] = E π [ R t + 1 + γ v π ( S t + 1 ) ∣ S t = s ] = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] ,  for all  s ∈ S \begin{aligned} v_{\pi}(s) & \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s\right] \\ &=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma G_{t+1} \mid S_{t}=s\right] \\ &=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma v_\pi(S_{t+1}) \mid S_{t}=s\right] \\ &=\sum_{a} \pi(a \mid s) \sum_{s^{\prime}, r} p\left(s^{\prime}, r \mid s, a\right)\left[r+\gamma v_{\pi}\left(s^{\prime}\right)\right], \quad \text { for all } s \in \mathcal{S} \end{aligned} vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1+γvπ(St+1)St=s]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)], for all sS
理论上, v π ( s ) v_\pi(s) v

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值