强化学习入门2—初识MDP

MDP 马尔可夫决策过程

MDP即Markov Decision Process,马尔可夫决策过程。MDP是强化学习问题的数学化形式,可以说这节开始将接触强化学习的理论部分。

基础概念

什么是强化学习?

有几个概念需先明确。首先是智能体。智能体(agent)表示能进行学习以及实施决策的机器。智能体之外所有与其相互作用的事物都被称作环境(environment)。智能体在环境中,与环境相互交互,在环境的某一时刻的状态(state)中选择动作(action),环境对动作做出相应的反馈,并在下一时刻转变至新的状态,同时产生一个奖励(reward) 返回给智能体。这就是智能体-环境的一个交互过程。如下图。
在这里插入图片描述

强化学习考虑的就是智能体与环境之间的交互学习,智能体的学习目标就是环境所返回的奖励,而RL任务就是最大化奖励的累积和的期望。是一种无监督下进行主动学习的方法。奖励也是评估动作选择的基础。

MDP

MDP是强化学习的基础,是RL的理论框架。在MDP中,我们考虑状态 S S S、动作 A A A,奖励 R R R。具体来说,智能体在时刻 t t t 观察到所处环境状态的某种特征表达 s t s_t st,接着选择动作 a t a_t at,下一时刻收到动作 a t a_t at 的结果即奖励 r t + 1 r_{t+1} rt+1,同时进入下一状态 s t + 1 s_{t+1} st+1。而当MDP中的状态、动作、奖励集合 ( S 、 A 、 R ) (S、A、R) (SAR) 都只有有限个元素,这样的MDP也称为有限MDP。形式化的序列如下:
( s 0 , a 0 , r 0 , . . . , s t , a t , r t , . . . ) (s_0,a_0,r_0,...,s_t,a_t,r_t,...) (s0,a0,r0,...,st,at,rt,...)
四参数表达式
p ( s ′ , r ∣ s , a ) = P ( S t = s ′ , R t = r ∣ S t − 1 = s , A t − 1 = a ) p(s',r|s,a)=P(S_{t}=s',R_{t}=r|S_{t-1}=s,A_{t-1}=a) p(s,rs,a)=P(St=s,Rt=rSt1=s,At1=a)
下面是一个小结:
Process ( s 0 , s 1 , s 2 , . . . , s t , . . . )    with    P ( s t ∣ s t − 1 , . . . , s 0 ) Markov Process ( s 0 , s 1 , s 2 , . . . , s t , . . . )    with    P ( s t ∣ s t − 1 , . . . , s 0 ) = P ( s t ∣ s t − 1 ) Markov Process ( s 0 , r 0 , s 1 , r 1 , s 2 , r 2 , . . . , s t , r t , . . . )    with    P ( s t ∣ s t − 1 , . . . , s 0 ) = P ( s t ∣ s t − 1 ) Markov Decision Process ( s 0 , a 0 , r 0 , s 1 , a 1 , r 1 , . . . , s t , a t , r t , . . . )    with    P ( s t ∣ s t − 1 , . . . , a 0 , , s 0 ) = P ( s t ∣ s t − 1 , a t − 1 ) \begin{aligned} &\text{Process} \\ &\quad(s_0,s_1,s_2,...,s_t,...)\;\text{with}\; P(s_t|s_{t-1},...,s_0)\\ &{\text{Markov Process}}\\ &\quad(s_0,s_1,s_2,...,s_t,...)\;\text{with}\; P(s_t|s_{t-1},...,s_0)=P(s_t|s_{t-1})\\ &\text{Markov Process}\\ &\quad(s_0,r_0,s_1,r_1,s_2,r_2,...,s_t,r_t,...)\;\text{with}\; P(s_t|s_{t-1},...,s_0)=P(s_t|s_{t-1})\\ &\text{Markov Decision Process}\\ &\quad(s_0,a_0,r_0,s_1,a_1,r_1,...,s_t,a_t,r_t,...)\;\text{with}\; P(s_t|s_{t-1},...,a_0,,s_0)=P(s_t|s_{t-1},a_{t-1})\\ \end{aligned} Process(s0,s1,s2,...,st,...)withP(stst1,...,s0)Markov Process(s0,s1,s2,...,st,...)withP(stst1,...,s0)=P(stst1)Markov Process(s0,r0,

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值