【强化学习】MarkovDecisionProcess(MDP) for RL马尔科夫

MarkovDecisionProcess(MDP) for RL马尔科夫

MDP Terminology

  1. Agent智能体:训练主要对象
  2. Environment环境:与智能体进行交互的其他物体.
  3. State状态:智能体的当前的状态。对于机器人来说可以是他的位置姿态信息。
  4. Action动作:智能体所作出的与时间相关的动作。
  5. Policy策略: 做出动作的背后原因。是一个对于一系列动作的概率分布。

Markov Property马尔科夫性质

A state S t S_t St is Markov if and only if
P [ S t + 1 ∣ S t ] = P [ S t + 1 ∣ S 1 , S 2 , . . . , S t ] \mathbb{P}[S_{t+1} | S_{t}] = \mathbb{P}[S_{t+1 | S_1, S_2,...,S_t}] P[St+1St]=P[St+1∣S1,S2,...,St]
Example: 一个机器人的一系列动作:

  1. 坐在椅子上
  2. 站起来
  3. 右腿向前
    如果当前状态是右腿向前 S t S_t St,那这一状态是取决于他的前一状态 S t − 1 S_{t-1} St1——站起来,而不会取决于再之前一步——坐在椅子上.

Markov Process Explained 解释马尔科夫过程

P s s ′ = P [ S t + 1 = s ′ ∣ S t = s ] \mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s] Pss=P[St+1=sSt=s]
马尔科夫过程由(S,P)来定义。s 是状态,P是状态转换概率。这个过程包括一系列随机的状态s_1, s_2,…这些状态都遵循马尔科夫性质。
状态转换概率P_{ss'}是从当前s'转换到s的概率。例子如图所示。
请添加图片描述

Markov reward Process 马尔科夫奖励过程

P s s ′ = P [ S t + 1 = s ′ ∣ S t = s ] \mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s] Pss=P[St+1=sSt=s]
R s = E [ R t + 1 ∣ S t = s ] \mathcal{R_{s}} = \mathbb{E}[R_{t+1} | S_{t} = s] Rs=E[Rt+1St=s]
马尔科夫奖励过程由(S,P,R,y)来定义。S为状态,P为状态转换概率,R是reward奖励,y是discount factor折扣因子。

R_s状态奖励是从s_t转换到所有可能状态的预期奖励。是在s_t这一状态而获得的。也就是当机器人离开之一状态后,才收获这奖励R_{t+1}

请添加图片描述![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=%2Fdocs%2Fchapter1%2Fimage%2F5_markov-decision-process.png%20%22markov-process%22&pos_id=img-bbHnwTkW-1721379933920

Markov Decision Process(MDP) 马尔科夫决策

P s s ′ = P [ S t + 1 = s ′ ∣ S t = s ] \mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s] Pss=P[St+1=sSt=s]
R s = E [ R t + 1 ∣ S t = s ] \mathcal{R_{s}} = \mathbb{E}[R_{t+1} | S_{t} = s] Rs

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值