《Reinforcement Learning》读书笔记 4：动态规划（Dynamic Programing）

最新推荐文章于 2024-06-05 10:48:20 发布

qjf42

最新推荐文章于 2024-06-05 10:48:20 发布

阅读量1.4k

点赞数 1

分类专栏：强化学习文章标签：强化学习 reinforce learning 读书笔记动态规划 dynamic programming

本文链接：https://blog.csdn.net/qjf42/article/details/79657405

版权

本文详细介绍了强化学习中动态规划的方法，包括Policy Iteration、Value Iteration、Asynchronous DP和Generalized Policy Iteration。动态规划通过迭代逼近最优策略，有效降低复杂度。文中以gridworld为例，阐述如何通过迭代改进策略以达到最优解。

摘要由CSDN通过智能技术生成

《Reinforcement Learning: An Introduction》读书笔记 - 目录

为了求解价值函数，或更一步得到最优策略，可以解Bellman方程组，但是当状态集太大时，求解的复杂度太高，所以这一章主要介绍了一些迭代的方式来逼近精确解，在不损失精度的情况下，大幅减少复杂度（对state-value function来说，一般是 $O(|\mathcal S|^k)$ ，即状态数量的多项式）

一些前提说明

接下来的几章主要说明的是一种tabular solution的解法，也就是基于表格的解法
因为state，action的数量有限，所以value可以是一个state的一维表（数组，map），也可以是一个state-action的二维表（数组，map）
这一章的动态规划从形态上来看，和经典的动态规划算法上没什么区别

`Policy Evaluation`

问题：已知 $\pi$ ，怎么更快地计算value-funtion？
思路：找一个序列 $\{v_k\}$ ，使得 $\lim_{k\to\infty}v_k = v_\pi$
算法（iterative policy evaluation）
- 过程
  1. 选一个随机/heuristic初始值
  2. 持续用Bellman equation更新 $v_k$ ，获得 $v_{k+1}$
  3. 直到 maxs∈S|vk+

最低0.47元/天解锁文章

qjf42

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《Reinforcement Learning》读书笔记 4：动态规划（Dynamic Programing）

《Reinforcement Learning: An Introduction》读书笔记 - 目录为了求解价值函数，或更一步得到最优策略，可以解Bellman方程组，但是当状态集太大时，求解的复杂度太高，所以这一章主要介绍了一些迭代的方式来逼近精确解，在不损失精度的情况下，大幅减少复杂度（对state-value function来说，一般是O(|S|k)O(|S|k)O(|\mathca...
复制链接

扫一扫