强化学习笔记(西湖大学课程)第五节

第四课 值迭代与策略迭代

1、值迭代算法

两个步骤

  • policy update PU 策略升级(处理策略的优化问题)

  • value update VU 数值升级(将VK(一个向量)带入新策略之中更新)

详细过程

  • 已知系统模型,将VK带入之后得到有最大的qk,最优的策略即选取qk最大的action,其他的action都是0(如果有多个qk相同的action,则可以任意选取,在数学上都可以达到最优),求qk,选qk最大的action即是最优策略

  • 这里讲到的贪心算法是后面蒙特卡洛方法的基础,这里实现的一种全贪心的状态,即只关注最优动作,但这样会失去探索性,在后面用蒙特卡洛方法寻优的时候要做到探索性与最大利用性兼备

  • 值更新:在求解出最优策略之后可以再次带值得到VK+1(其中的策略就是更新后的策略)

最终的结果,VK+1就是最大的qk

POLICY UPDATE:贪心策略

VALUE UPDATE:vk+1=max(qk),sv更新为qk的最大值

步骤:对每一个SA求qπk,取得最大的来生成新策略,最大的同时也是SV的更新值,再由SV求qπk,进入循环 (在一个循环内即实现了SV的更新)

2、策略迭代算法

先随机取定一个策略,在通过计算SV判定策略的优劣性,之后用SV去更新策略,将更新后的策略带回到第一步之中继续计算SV,最终可以让策略不断趋近于最优

  • PE过程,如何求解SV

  • 为什么PI中的新策略一定会优于原策略

  • 为什么这个迭代算法可以趋近于最优策略

  • 值迭代和策略迭代的关系是什么

  1. 在假设一个πK的情况下可以写出贝尔曼方程,最终同样是通过迭代的方式来计算SV

  1. 可以证明出SV在迭代的过程中是不断变好的,即新策略一定会优于原策略

  2. 可以证明VπK一定会收敛到V*,策略也会收敛到最优策略

  3. 策略迭代算法的收敛性是值迭代算法的收敛性推导出来的

算出来qπk之后,就和之前的内容一样

步骤:有贝尔曼方程解SV(任意给定初值,迭代计算),再有SV求qπk,得到之后根据最大的出策略,再有新策略产生贝尔曼方程,再解出SV (在无限循环之后才能逼近一个最优策略)

接近目标的状态会先变好,远离目标的状态会后变好

3、截断策略迭代算法

在第三步当中,v0到v1通过值迭代只需要一步运算,而策略迭代从V0到Vπ1需要无穷多步

则有可能存在一个中间步,将这一步所得到的值直接提取出来,直接放到进入下一个迭代过程,这里即是所谓的截断策略迭代

策略迭代只在理论上存在,所以从某种意义上而言,实际中的应用都是截断策略迭代而不存在所谓的绝对策略迭代

事先设定一个参数,只看是否执行够了自己想要的次数(即截断次数),执行到设定次数之后就结束

直观上解释:可以证明在截断过程中始终是增大状态,截断不会影响其收敛性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值