作者:黄娘球
本文约2200字,建议阅读5分钟
本文讲述无模型的预测 (Model-free Prediction)通过与环境的交互迭代来求解问题。
上文(《原创 | 一文读懂强化学习在动态规划领域的应用》)回顾了强化学习的基础概念,以及预测与控制 (求解已知的MDP)。在已知的马尔可夫决策过程(MDP)中,无论是策略迭代(policy iteration)还是价值迭代(value iteration),都假定已知环境(Environment)的动态和奖励(dynamics and reward),然而在许多的真实世界的问题中,MDP模型或者是未知的,或者是已知的但计算太复杂。本文讲述无模型的预测与控制Model-free Prediction and Control 中的前半部分,无模型的预测 (Model-free Prediction)通过与环境的交互迭代来求解问题。
注:本文整理自周博磊以及David Silver的课件,并添加了自己的总结。
Lecture 3 无模型的预测与控制(Model-free Prediction and Control)
无模型的预测与控制,即在一个未知的马尔可夫决策过程(MDP)中,估计与优化价值函数。
3.1.无模型的预测(Model-free Prediction):
在不知道模型的情况下做策略评估,即如果我们不知道MDP模型,估计一个特定策略的期望回报。
3.1.1 蒙特卡洛策略评估(Monte-Carlo policy evaluation)
一、概述
a.
b. 蒙特卡洛模拟(MC simulation):简单地采样大量的轨迹(Trajectories),使用经验平均回报,而不是期望回报。
c. 不要求MDP dynamics 或者奖励,没有 bootstrapping,也不假设状态是马尔可夫(Markov)的。
1. 评估状态s的价值函数 V(s):
a. 增量计数(Increment counter):
b. 增量总回报( Increment total return):
c. 价值由平均回报来估计:
2. 由大数定律,有:
二、增量式蒙特卡洛更新 (Incremental MC Updates)
a. 各个回合的状态、动作和奖励集合: