揭秘深度强化学习-3强化学习理论依据——马尔科夫决策过程

最新推荐文章于 2024-06-27 10:08:22 发布

qq_26690795

最新推荐文章于 2024-06-27 10:08:22 发布

阅读量477

点赞数

分类专栏：强化学习

强化学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

看完觉得深受启发的一篇文章，根据自己的理解翻译过来留以后再次翻看

原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

马尔科夫决策过程（Markov Decision Process）

现在我们来看看如何构造一个强化学习问题的公式。最常用的是基于马尔科夫决策过程(Markov decision process)。

让我们发散想象力，以打砖块游戏为例，帮助我们理解整个过程。想象你是一个智体(Agent)，处于一个环境中(enviroment)——比如说打砖块游戏，你在这个环境中处于一种特定的状态(state)——比如说打砖块游戏中平板的位置，小球的方向和位置，每一个砖块的存在等，智体(Agent)可以在环境(enviroment)中行动(action)——比如说移动平板向左或向右，这些行为有时会获得奖励(Reward)——也就是消砖块获得分数，行动使环境由旧状态转变为新状态，此时智体又可以进行下一步行动，以此类推。智体(Agent)如何选择这些行为(action)的准则被称为策略(policy)。环境通常是随机的，这意味着下一状态可能也是随机的——比如说你输了一个球，获得一个新球时它是朝向随机方向的。

一组状态和行动(state,action)，状态转换规则，获得奖励的方法：构成了一个完整的马尔科夫决策过程。一个周期的进程(比如一局游戏）构成了一个关于状态、行动和奖励的有限序列：

s0,a0,r1,s1,a1,r2,s2,…,sn−1,an−1,rn,sn

在这里，si表示状态，ai表示行动，ri+1表示行为后获得奖励。这个周期以终结状态sn为终点(game over)。

来了解一下马尔科夫假设：下一状态si+1仅仅依赖于当前状态si和当前行动ai，与之前的状态和行为无关。马尔科夫决策过程正是基于这一假设。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
揭秘深度强化学习-3强化学习理论依据——马尔科夫决策过程

看完觉得深受启发的一篇文章，根据自己的理解翻译过来留以后再次翻看原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/马尔科夫决策过程（Markov Decision Process）现在我们来看看如何构造一个强化学习问题的公式。最常用的是基于马尔科夫决策过程(Markov decision process...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。