原创 | 一文读懂无模型的预测(强化学习二)

13d92ddbb1fde8b23fe08410ececf0dd.png

作者:黄娘球

本文约2200字,建议阅读5分钟
本文讲述无模型的预测 (Model-free Prediction)通过与环境的交互迭代来求解问题。

上文(《原创 | 一文读懂强化学习在动态规划领域的应用》)回顾了强化学习的基础概念,以及预测与控制 (求解已知的MDP)。在已知的马尔可夫决策过程(MDP)中,无论是策略迭代(policy iteration)还是价值迭代(value iteration),都假定已知环境(Environment)的动态和奖励(dynamics and reward),然而在许多的真实世界的问题中,MDP模型或者是未知的,或者是已知的但计算太复杂。本文讲述无模型的预测与控制Model-free Prediction and Control 中的前半部分,无模型的预测 (Model-free Prediction)通过与环境的交互迭代来求解问题。

注:本文整理自周博磊以及David Silver的课件,并添加了自己的总结。

Lecture 3 无模型的预测与控制(Model-free Prediction and Control)

无模型的预测与控制,即在一个未知的马尔可夫决策过程(MDP)中,估计与优化价值函数。

3.1.无模型的预测(Model-free Prediction):

在不知道模型的情况下做策略评估,即如果我们不知道MDP模型,估计一个特定策略的期望回报。

3.1.1 蒙特卡洛策略评估(Monte-Carlo policy evaluation)

一、概述

a.   1293da4dea2beeaaadc02adac6118bce.pngde4bfb92fbb2f7979e225f89acc6a174.png

b.   蒙特卡洛模拟(MC simulation):简单地采样大量的轨迹(Trajectories),使用经验平均回报,而不是期望回报。

c.   不要求MDP dynamics 或者奖励,没有 bootstrapping,也不假设状态是马尔可夫(Markov)的。

1. 评估状态s的价值函数 V(s):

a. 增量计数(Increment counter):9290334aaff948945f4122a808e8c35a.pngde03f58bc50c2cdab5222151abca16b1.png

b. 增量总回报( Increment total return):c13de82ce82153f86e3a3a1b4deede45.png2d445b81b51ffe3f7cef2658ce47ba7a.png

c. 价值由平均回报来估计:d4119b43c873e1e470e93d9684a5bc1a.png482debe8ab68db9da9765a2f35f4fd6f.png

2. 由大数定律,有:700ce3c189a10ca8d1a36eb1a5e10cf7.png5f227c382cabbaaf91493b60096eb347.png

二、增量式蒙特卡洛更新 (Incremental MC Updates)

a. 各个回合的状态、动作和奖励集合:9ecb4696abe81c7ee19b72abfbe58fef.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值