上一节主要是引入了MDP(Markov decision process)的各种相关的定义与概念。最后得到了 最优状态值函数 v ∗ ( s ) v ∗ ( s ) v ∗ ( s ) v∗(s)v∗(s) v_∗(s) v∗(s)v∗(s)v∗(s)v(s)的值,…不断迭代直到策略收敛。策略迭代在每次改进策略后都要对策略进行重新评估,因此比较耗时。
参考:
动态规划求解MDP
周志华《Machine Learning》学习笔记(17)–强化学习
</div>
上一节主要是引入了MDP(Markov decision process)的各种相关的定义与概念。最后得到了 最优状态值函数 v ∗ ( s ) v ∗ ( s ) v ∗ ( s ) v∗(s)v∗(s) v_∗(s) v∗(s)v∗(s)v∗(s)v(s)的值,…不断迭代直到策略收敛。策略迭代在每次改进策略后都要对策略进行重新评估,因此比较耗时。
参考:
动态规划求解MDP
周志华《Machine Learning》学习笔记(17)–强化学习
</div>