《深入浅出强化学习原理入门》学习笔记(五)基于Python实现策略迭代方法和值迭代方法

《深入浅出强化学习原理入门》学习笔记(五)基于Python实现策略迭代方法和值迭代方法

1、策略迭代方法

在这里插入图片描述
python代码包括策略评估和策略改善两个子程序,两个子程序交替运行,使得策略逐渐优化收敛。

策略评估

在这里插入图片描述
包含两个循环。第一个循环为1000次,保证值函数收敛到该策略对应的真实值函数。第二个函数为整个状态空间的扫描,保证状态空间的每一点的值函数都得到估计。在第二个循环中用到了系统的模型,因为模型已知,所以智能体无需实际采用这个动作就可以确切知道采用相应策略后的下一个状态。

策略改善

在这里插入图片描述在这里插入图片描述
包含两个循环,外循环对整个状态空间进行遍历,内循环对整个动作空间进行遍历,通过动作值函数得到贪婪策略。

2、值迭代方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值