4、Dynamic Programming

最新推荐文章于 2024-03-30 03:29:17 发布

Jacob Jiang

最新推荐文章于 2024-03-30 03:29:17 发布

阅读量383

点赞数

分类专栏： RL 文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42104932/article/details/105547545

版权

RL 专栏收录该内容

28 篇文章 3 订阅

订阅专栏

文章目录

1、Policy Evaluation
2、Policy Improvement
3、Policy Iteration
4、Value Iteration
5、Generalized Policy Iteration(GPI)

Dynamic Programming（DP)指一组可以用来计算最优策略的算法。这些算法给出了一个完整的环境模型，即 MDP。

经典DP需要假设模型是完整的（即完全可知），且计算量大，在RL实际应用中有限。DP和一般RL的关键思想：使用值函数来组织和构造对好的策略的搜索。

动态规划(DP)对复杂的问题来说，可能不具有可行性。主要原因是问题状态的数量很大，导致计算代价太大。

1、Policy Evaluation

首先，考虑任意策略 $\pi$ 的状态值函数 $v_\pi$ 的计算——Policy Evaluation / prediction problem：
对于所有的 $\in S$
在这里插入图片描述
迭代求解：

考虑近似值函数序列： $v_0,v_1,...$
随机初始化 $v_0$ （如果状态是终止状态，v=0）
使用贝尔曼方程逐次逼近

算法：

2、Policy Improvement

计算 $V (s)$ 是为了找到更好的策略 $\pi$ 。
假设对于任意确定性策略 $\pi$ ，有确定性的值函数 $v_\pi$ 。
对于一些状态s，我们想知道是否应该改变策略以确定性地选择一个动作 $\not = \pi(s)$ ，已知 $v_\pi(s)$ 得到的状态s的策略是好的，但是不知道下一个新的策略是否也是好的？
解决方法：使用 $q_\pi(s,a)$
在这里插入图片描述
如果：

则，

证明：

根据q值中最大的对应的动作为新的策略——greedy policy

3、Policy Iteration

策略迭代：寻找最优策略的方法

在这里插入图片描述
算法：

策略迭代缺点：每个迭代都涉及policy evaluation 和 policy improvement，因此计算量很大。

Policy Iteration代码实现（gridworld环境）

4、Value Iteration

策略迭代的简化，仅在一次扫描之后停止policy evaluation——值迭代
在这里插入图片描述
值迭代参考了贝尔曼方程：

算法：

值迭代在每次扫描中有效的结合了一次 policy evaluation 和 policy improvement，收敛更加快。

Value Iteration代码实现

5、Generalized Policy Iteration(GPI)

GPI 是一个强化学习的核心思想，影响了几乎所有的强化学习方法。

策略迭代由两个同步的、交互的过程组成：

一个使值函数与当前策略一致（policy evaluation）
一个使策略对当前值函数做贪婪（policy improvement）

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
4、Dynamic Programming

文章目录1、Policy Evaluation2、Policy Improvement3、Policy Iteration4、Value Iteration5、Generalized Policy Iteration(GPI)6、Dynamic Programming（DP)指一组可以用来计算最优策略的算法。这些算法给出了一个完整的环境模型，即 MDP。经典DP需要假设模型是完整的（即完全...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。