[RL] 4 Dynamic Programming (1)

最新推荐文章于 2020-11-04 14:44:19 发布

hubin00sx

最新推荐文章于 2020-11-04 14:44:19 发布

阅读量564

点赞数

分类专栏： RL 增强学习 RL-DP RL-动态规划文章标签： RL 增强学习

本文链接：https://blog.csdn.net/hubin00sx/article/details/66478834

版权

Introduction

在这里，动态规划(Dynamic Programming, DP)指的是一类算法，在MDP中，给定一个完美的environment的模型，它们可以计算相应的optimal policy。

关于MDP，详见之前的三篇博客：[RL] 3 Finite Markov Decision Processes (1)、[RL] 3 Finite Markov Decision Processes (2)、[RL] 3 Finite Markov Decision Processes (3)。
因为DP假设一个完美的environment模型，而且它们的计算费用很高，因此DP在增强学习中实用性有限，但在理论上仍然很重要。

Assumptions

我们假设environment是一个finite MDP，即它的state、action和reward的集合 $\mathcal S, \mathcal A(s), \mathcal R$ 是有限的，它的one-step dynamics（一步变换）由一组概率分布给定 $p(s', r \mid s,a), s \in \mathcal S, a \in \mathcal A(s), r \in \mathcal R, s' \in \mathcal S^+$ 。

DP的思想可以应用到连续的state和action空间，但只有在特殊例子下才有解。
我们可以将连续的state和action空间离散化，然后使用finite-state DP来获得连续问题的近似解。

Key Idea

DP的主要思想，是利用value function来组织策略的搜索。
optimal value function：

v * (s) = max a E [R t + 1 + γ v * (S t + 1) ∣ S t = s, A t = a] = max a \sum s', r p (s', r ∣ s, a) [r + γ v * (s')] (1)

$\begin{align*}v_*(s) &= \max_a \mathbb{E}[R_{t+1}+\gamma v_*(S_{t+1}) \mid S_t=s,A_t=a] \\ &= \max_a \sum_{s',r}p(s',r\mid s,a)[r+\gamma v_*(s')] \,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,(1)\end{align*}$

q * (s, a) = E [R t + 1 + γ max a' q * (S t + 1, a') ∣ S t = s, A t = a] = \sum s', r p (s', r ∣ s, a) [r + γ max a' q * (s', a')] (2)

$\begin{align*}q_*(s,a) &= \mathbb{E} [R_{t+1} + \gamma \max_{a'} q_*(S_{t+1},a') \mid S_t=s, A_t=a] \\ &= \sum_{s',r}p(s',r \mid s,a)[r+\gamma \max_{a'} q_*(s',a')]\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,(2)\end{align*}$

f o r a l l s \in S, a \in A (s), s' \in S +

$for \,\,all \,\,s \in \mathcal S, a \in \mathcal A(s), s' \in \mathcal S^+$

我们将会看到，通过将Bellman equations转化为能够不断优化value function近似值的更新规则，我们将得到我们的DP算法。

Policy Evaluation

首先我们考虑，对任意的 $policy \,\,\pi$ ，如何计算state-value function $v_\pi$ 。这在DP中称为policy evaluation（策略估计），我们也称作prediction problem（预测问题）。根据MDP中的推导：

最低0.47元/天解锁文章

hubin00sx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[RL] 4 Dynamic Programming (1)

Introduction 在这里，动态规划(Dynamic Programming, DP)指的是一类算法，在MDP中，给定一个完美的environment的模型，它们可以计算相应的optimal policy。关于MDP，详见之前的三篇博客：[RL] 3 Finite Markov Decision Processes (1)、[RL] 3 Finite Markov Decision P
复制链接

扫一扫