强化学习笔记01：马尔科夫决策过程与动态规划

最新推荐文章于 2024-07-21 15:40:39 发布

IMISer2016

最新推荐文章于 2024-07-21 15:40:39 发布

阅读量3.4k

点赞数 1

分类专栏： RL 文章标签：强化学习动态规划马尔科夫过程

本文链接：https://blog.csdn.net/IMISer2016/article/details/88984467

版权

本文介绍了强化学习中的马尔科夫决策过程（MDP）和动态规划（DP）的基础知识，包括MDP的构成元素、贝尔曼方程、最优策略和值函数的关系，以及策略迭代和值迭代等DP算法。通过Gridworld示例展示了DP算法的应用。

摘要由CSDN通过智能技术生成

Markov Decision Process and Dynamic Programming

Date: Match 2019
Material from Reinforcement Learning:An Introduction,2nd,Rechard.S.Sutton;
Code from dennyBritze, 部分做了修改；

文章目录

Markov Decision Process and Dynamic Programming

Abstract

MDP过程是RL环境中常见的范式，DP是解决有限MDP问题的可最优收敛办法，效率在有效平方级。DP算法基本思想是基于贝尔曼方程进行Bootstrapping，即用估计来学习估计（learn a guess from a guess)。DP需要经过反复的策略评估和策略提升过程，最终收敛到最优的策略和值函数。这一过程其实是RL很多算法的基本过程，即先进行评估策略（Prediction）再优化策略。

MDP problems set up

在RL problems set up中我们知道RL基本要素是Agent和Enviornment, 环境的种类很多，但大多都可以抽象成一个马尔科夫决策过程（MDP）或者部分马尔科夫决策过程(POMDP);

MDPs are a mathematically idealized form of the reinforcement learning problem for which precise
theoretical statements can be made.

Key elements of MDP： $<\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R},\gamma>$

名称	表达式
状态转移矩阵（一个Markov Matrix）	$P_{ss’}^a=P(S_{t+1}=s’
奖励函数	$R_{s}^a=\mathbb{E}{\pi}[R{t+1}
累计奖励	$G_t=\sum_{k=0}^\infty\gamma^k R_{t+1+k}$
值函数（Value Function）	$V_\pi(a)=\mathbb{E}[G_t
动作值函数（Action Value Fucntion）	$Q_\pi(s,a)=\mathbb{E}[G_t
策略（Policy）	$\pi(a
奖励转移方程	$R_{t+1}=R_{t+1}(S_t,A_t,S_{t+1})$
某策略下的状态转移方程	$P_{ss’}^\pi=\mathbb{P}(S_{t+1}=s’
某状态某策略下的奖励函数	$R_{s}^\pi=\sum_{a}\pi(a

Bellman Equation

贝尔曼方程将某时刻的值函数与其下一时刻的值函数联系起来：
$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ...$
$G_t = \sum_{k=t+1}^{T}\gamma^{k-t-1}R_k = R_{t+1} + \gamma G_{t+1}$