18 .蒙特卡洛强化学习之增量式策略评估

aganim

已于 2024-01-11 18:44:00 修改

阅读量1k

点赞数

分类专栏：我的强化学习笔记文章标签：强化学习蒙特卡洛

于 2024-01-11 18:39:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/caijungan/article/details/135525282

版权

我的强化学习笔记专栏收录该内容

22 篇文章 0 订阅

订阅专栏

文章目录

1. 批量式策略评估方法的缺陷
2.什么是增量式方法
3.增量式策略评估算法流程

1. 批量式策略评估方法的缺陷

上一篇讨论的批量式策略评估方法表明，只有当全部K个完整轨迹存储后才能对Q(s,a)进行一次估计。
这在实际中存在如下缺陷：

存储空间消耗大：所存储的轨迹数K越大，每个轨迹的步长 $L_k$ 越大，存储空间消耗就越大；
CPU消耗过于集中：在多个轨迹收集完后，才集中进行一次估计，相当于把计算负担加到一个时间点上，使得在特定时间点CPU消耗太大。

为克服批处理方法的缺陷，可以使用增量式方法估计 $Q (s, a)$

2.什么是增量式方法

每当获得一个完整的轨迹后，就对行为值函数进行一次更新的方法

3.增量式策略评估算法流程

3.1 输入

环境E、状态空间S、动作空间A，初始化行为值函数 $Q (s, a) = 0$ ,当前策略 $\pi$ ,步长 $\alpha\in(0,1)$

3.2 处理过程

for k = 1…m do
$\qquad$ 按照策略 $\pi$ 与E产生完整轨迹 $s_0,a_0,r_1),(s_1,a_1,r_2),...,(s_T,a_T,r_{T+1})]$
$\qquad$ for $i = 1... T + 1$ do
$\qquad\qquad r_i\leftarrow G_i=\sum_{n=i}^{T+1}\gamma^{n-i}r_i$
$\qquad\qquad Q(s_i,a_i)\leftarrow Q(s_i,a_i)+\alpha (G_i-Q(s_i,a_i))$

3.3 输出

$Q (s, a)$

关注

0
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
18 .蒙特卡洛强化学习之增量式策略评估

蒙特卡洛策略评估中行为值函数估计的增量式算法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

aganim 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。