强化学习入门2—初识MDP

最新推荐文章于 2024-02-08 20:28:45 发布

小菜羊~

最新推荐文章于 2024-02-08 20:28:45 发布

阅读量3.7k

点赞数 5

分类专栏：强化学习文章标签：强化学习马尔可夫决策过程

本文链接：https://blog.csdn.net/sherlocksy/article/details/119427953

版权

MDP 马尔可夫决策过程

MDP即Markov Decision Process，马尔可夫决策过程。MDP是强化学习问题的数学化形式，可以说这节开始将接触强化学习的理论部分。

基础概念

什么是强化学习？

有几个概念需先明确。首先是智能体。智能体(agent)表示能进行学习以及实施决策的机器。智能体之外所有与其相互作用的事物都被称作环境(environment)。智能体在环境中，与环境相互交互，在环境的某一时刻的状态(state)中选择动作(action)，环境对动作做出相应的反馈，并在下一时刻转变至新的状态，同时产生一个奖励(reward) 返回给智能体。这就是智能体-环境的一个交互过程。如下图。
在这里插入图片描述

强化学习考虑的就是智能体与环境之间的交互学习，智能体的学习目标就是环境所返回的奖励，而RL任务就是最大化奖励的累积和的期望。是一种无监督下进行主动学习的方法。奖励也是评估动作选择的基础。

MDP

MDP是强化学习的基础，是RL的理论框架。在MDP中，我们考虑状态 $S$ 、动作 $A$ ，奖励 $R$ 。具体来说，智能体在时刻 $t$ 观察到所处环境状态的某种特征表达 $s_t$ ，接着选择动作 $a_t$ ，下一时刻收到动作 $a_t$ 的结果即奖励 $r_{t+1}$ ，同时进入下一状态 $s_{t+1}$ 。而当MDP中的状态、动作、奖励集合 $(S 、 A 、 R)$ 都只有有限个元素，这样的MDP也称为有限MDP。形式化的序列如下：
$s_0,a_0,r_0,...,s_t,a_t,r_t,...)$
四参数表达式
$p(s',r|s,a)=P(S_{t}=s',R_{t}=r|S_{t-1}=s,A_{t-1}=a)$
下面是一个小结：
$\begin{aligned} &\text{Process} \\ &\quad(s_0,s_1,s_2,...,s_t,...)\;\text{with}\; P(s_t|s_{t-1},...,s_0)\\ &{\text{Markov Process}}\\ &\quad(s_0,s_1,s_2,...,s_t,...)\;\text{with}\; P(s_t|s_{t-1},...,s_0)=P(s_t|s_{t-1})\\ &\text{Markov Process}\\ &\quad(s_0,r_0,s_1,r_1,s_2,r_2,...,s_t,r_t,...)\;\text{with}\; P(s_t|s_{t-1},...,s_0)=P(s_t|s_{t-1})\\ &\text{Markov Decision Process}\\ &\quad(s_0,a_0,r_0,s_1,a_1,r_1,...,s_t,a_t,r_t,...)\;\text{with}\; P(s_t|s_{t-1},...,a_0,,s_0)=P(s_t|s_{t-1},a_{t-1})\\ \end{aligned}$