自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

靡不有初鲜克有终

古之成大事者，不惟有超世之才，亦唯有坚韧不拔之志也！

jsfantasy CSDN认证博客专家 CSDN认证企业博客

码龄9年

202: 原创

2万+: 周排名

144万+: 总排名

33万+: 访问

: 等级

4920: 积分

420: 粉丝

444: 获赞

110: 评论

1442: 收藏

私信

关注

热门文章

分类专栏

最新评论

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）
yzd111: 你好，可以问一下最后那个动作价值函数怎么解吗
强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）
Jerry233: 您提出了一个很好的问题。让我解释一下为什么v2的等式右边没有代表R(s,a)的v2部分。在马尔可夫决策过程(MDP)中,每个状态的值函数是由即时奖励和未来状态的折扣值组成的。对于v2状态(图中值为-1.3的状态),我们需要考虑从这个状态可能采取的动作及其结果。让我们分析v2的等式: v2 = 0.5 * (-1 + v1) + 0.5 * (-2 + v3) 这个等式可以解释如下: 0.5 * (-1 + v1) 部分: 0.5 是动作概率 π(a|s) = 0.5 -1 是即时奖励 R(s,a),对应"Facebook"动作 v1 是下一个状态的值 0.5 * (-2 + v3) 部分: 0.5 是另一个动作的概率 -2 是即时奖励 R(s,a),对应"Study"动作 v3 是另一个可能的下一状态的值这里没有v2是因为在这个MDP中,从v2状态采取的动作不会让系统留在v2状态。根据图示,从v2状态(值为-1.3的状态)出发: "Facebook"动作会让系统转移到v1状态(值为-2.3的状态) "Study"动作会让系统转移到v3状态(值为2.7的状态) 因此,v2的计算只需要考虑这两个可能的转移,不需要包含留在原地的情况。这就是为什么等式右边没有包含v2项的原因。
强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）
Five_L: 讲太好了，目前看到说得最清楚的一篇
强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）
新兰26: 3.1部分举的例子，S4,S5,S6,S7获得的奖励应该是 0 + 0.5*0 + 0.25*0 + 0.125*10 吧
强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）
小高here: 请问那个奖励函数R是啥意思。没太看懂

最新文章

强化学习

关注

文章平均质量分 86

关注数：文章数：15 文章阅读量：141146 文章收藏量：1160

作者: jsfantasy

虚心、实腹、弱志、强骨

展开