[Reinforcement Learning] 马尔可夫决策过程

最新推荐文章于 2022-03-29 22:27:30 发布

weixin_37958272

最新推荐文章于 2022-03-29 22:27:30 发布

阅读量164

点赞数

分类专栏：强化学习文章标签：算法人工智能深度学习强化学习

原文链接：https://www.cnblogs.com/maybe2030/p/9862585.html

版权

强化学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

[Reinforcement Learning] 马尔可夫决策过程

阅读目录

情节性任务 vs. 连续任务

情节性任务（Episodic Tasks），所有的任务可以被可以分解成一系列情节，可以看作为有限步骤的任务。
连续任务（Continuing Tasks），所有的任务不能分解，可以看作为无限步骤任务

马尔可夫性

引用维基百科对马尔可夫性的定义：

马尔可夫性：当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态

用数学形式表示如下：

马尔可夫过程

马尔可夫过程即为具有马尔可夫性的过程，即过程的条件概率仅仅与系统的当前状态相关，而与它的过去历史或未来状态都是独立、不相关的。

马尔可夫奖赏过程

马尔可夫奖赏过程（Markov Reward Process，MRP）是带有奖赏值的马尔可夫过程，其可以用一个四元组表示 <S,P,R,γ>。

S 为有限的状态集合；
**P 为状态转移矩阵，Pss′=P[S_t+1=s′|S_t=s]；
R 是奖赏函数；
γ 为折扣因子（discount factor），其中 γ∈[0,1]

奖赏函数

在 t 时刻的奖赏值 Gt：

在这里插入图片描述

Why Discount

关于Return的计算为什么需要 γγ 折扣系数。David Silver 给出了下面几条的解释：

数学表达的方便
避免陷入无限循环
远期利益具有一定的不确定性
在金融学上，立即的回报相对于延迟的回报能够获得更多的利益
符合人类更看重眼前利益的特点

价值函数

状态 ss 的长期价值函数表示为：

在这里插入图片描述

在这里插入图片描述

马尔可夫决策过程

马尔可夫决策过程（Markov Decision Process，MDP）是带有决策的MRP，其可以由一个五元组构成 <S,A,P,R,γ>。

在这里插入图片描述

策略

策略（Policy）是给定状态下的动作概率分布，即：

π(a|s)=P[A_t=a|S_t=a]

状态价值函数 & 最优状态价值函数

给定策略 π 下状态 s 的状态价值函数（State-Value Function）v_π(s)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

weixin_37958272

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[Reinforcement Learning] 马尔可夫决策过程

[Reinforcement Learning] 马尔可夫决策过程阅读目录情节性任务 vs. 连续任务马尔可夫性马尔可夫过程马尔可夫奖赏过程马尔可夫决策过程Reference情节性任务 vs. 连续任务情节性任务（Episodic Tasks），所有的任务可以被可以分解成一系列情节，可以看作为有限步骤的任务。连续任务（Continuing Tasks），所有的任务不能分解，可以看作为无限步骤任务马尔可夫性引用维基百科对马尔可夫性的定义：马尔可夫性：当一个随机过程在给定现在
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。