【强化学习】MarkovDecisionProcess(MDP) for RL马尔科夫

EricHarrison

于 2024-07-19 17:11:15 发布

阅读量301

点赞数 2

文章标签：机器人人工智能学习机器学习

本文链接：https://blog.csdn.net/EricHarrison/article/details/140554884

版权

MarkovDecisionProcess(MDP) for RL马尔科夫

MDP Terminology

Agent智能体：训练主要对象
Environment环境：与智能体进行交互的其他物体.
State状态：智能体的当前的状态。对于机器人来说可以是他的位置姿态信息。
Action动作：智能体所作出的与时间相关的动作。
Policy策略：做出动作的背后原因。是一个对于一系列动作的概率分布。

Markov Property马尔科夫性质

A state $S_t$ is Markov if and only if
$\mathbb{P}[S_{t+1} | S_{t}] = \mathbb{P}[S_{t+1 | S_1, S_2,...,S_t}]$
Example: 一个机器人的一系列动作：

坐在椅子上
站起来
右腿向前
如果当前状态是右腿向前 $S_t$ ，那这一状态是取决于他的前一状态 $S_{t-1}$ ——站起来，而不会取决于再之前一步——坐在椅子上.

Markov Process Explained 解释马尔科夫过程

$\mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s]$
马尔科夫过程由(S,P)来定义。s 是状态，P是状态转换概率。这个过程包括一系列随机的状态s_1, s_2,…这些状态都遵循马尔科夫性质。
状态转换概率P_{ss'}是从当前s'转换到s的概率。例子如图所示。
请添加图片描述

Markov reward Process 马尔科夫奖励过程

$\mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s]$
$\mathcal{R_{s}} = \mathbb{E}[R_{t+1} | S_{t} = s]$
马尔科夫奖励过程由(S,P,R,y)来定义。S为状态，P为状态转换概率，R是reward奖励,y是discount factor折扣因子。

R_s状态奖励是从s_t转换到所有可能状态的预期奖励。是在s_t这一状态而获得的。也就是当机器人离开之一状态后，才收获这奖励R_{t+1}

请添加图片描述 ![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=%2Fdocs%2Fchapter1%2Fimage%2F5_markov-decision-process.png%20%22markov-process%22&pos_id=img-bbHnwTkW-1721379933920

Markov Decision Process(MDP) 马尔科夫决策

$\mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s]$
$\mathcal{R_{s}} = \mathbb{E}[R_{t+1} | S_{t} = s]$

最低0.47元/天解锁文章

EricHarrison

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【强化学习】MarkovDecisionProcess(MDP) for RL马尔科夫

在考虑长期未来的奖励的时候，我们也要限制长期奖励带来的影响（对当下奖励的影响）因为是有状态到动作的这个转换，所以取期望动作价值over所有的动作。虽然说我们获得MDP所有状态动作的价值，我们就能得到最优，但是状态和动作的状态数百万种的，我们无法对其所有都进行评估。价值函数是一个状态或动作的长期价值。也就是说，它是一个状态或动作所带来的长期回报的期望。如果我们能获得MDP中所有动作导致的所有的状态或动作的价值，那去价值最大的就可以了。这个方程给的是对于动作的长期回报的期望。，价值函数为所有状态的期望回报。
复制链接

扫一扫