18 .蒙特卡洛强化学习之增量式策略评估

1. 批量式策略评估方法的缺陷

上一篇讨论的批量式策略评估方法表明,只有当全部K个完整轨迹存储后才能对Q(s,a)进行一次估计。
这在实际中存在如下缺陷:

  • 存储空间消耗大:所存储的轨迹数K越大,每个轨迹的步长 L k L_k Lk越大,存储空间消耗就越大;
  • CPU消耗过于集中:在多个轨迹收集完后,才集中进行一次估计,相当于把计算负担加到一个时间点上,使得在特定时间点CPU消耗太大。

为克服批处理方法的缺陷,可以使用增量式方法估计 Q ( s , a ) Q(s,a) Q(s,a)

2.什么是增量式方法

每当获得一个完整的轨迹后,就对行为值函数进行一次更新的方法

3.增量式策略评估算法流程

3.1 输入

环境E、状态空间S、动作空间A,初始化行为值函数 Q ( s , a ) = 0 Q(s,a)=0 Q(s,a)=0,当前策略 π \pi π,步长 α ∈ ( 0 , 1 ) \alpha\in(0,1) α(0,1)

3.2 处理过程

for k = 1…m do
\qquad 按照策略 π \pi π与E产生完整轨迹 [ ( s 0 , a 0 , r 1 ) , ( s 1 , a 1 , r 2 ) , . . . , ( s T , a T , r T + 1 ) ] [(s_0,a_0,r_1),(s_1,a_1,r_2),...,(s_T,a_T,r_{T+1})] [(s0,a0,r1),(s1,a1,r2),...,(sT,aT,rT+1)]
\qquad for i = 1... T + 1 i = 1...T+1 i=1...T+1 do
r i ← G i = ∑ n = i T + 1 γ n − i r i \qquad\qquad r_i\leftarrow G_i=\sum_{n=i}^{T+1}\gamma^{n-i}r_i riGi=n=iT+1γniri
Q ( s i , a i ) ← Q ( s i , a i ) + α ( G i − Q ( s i , a i ) ) \qquad\qquad Q(s_i,a_i)\leftarrow Q(s_i,a_i)+\alpha (G_i-Q(s_i,a_i)) Q(si,ai)Q(si,ai)+α(GiQ(si,ai))

3.3 输出

Q ( s , a ) Q(s,a) Q(s,a)

  • 0
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

aganim

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值