Chapter 4:动态规划

本文详细介绍了强化学习中的动态规划(DP)算法,包括Policy Evaluation、Policy Improvement、Policy Iteration和Value Iteration。此外,还探讨了异步DP、广义Policy Iteration以及DP的效率问题,阐述了DP在解决大规模问题时的有效性和优势。
摘要由CSDN通过智能技术生成

经典DP算法在强化学习中的用途有限,因为这些算法假设一个完美的模型,并且计算费用很高,但经典DP算法在理论上仍然很重要。本书剩下的所有方法都可以被视为尝试实现与DP相同的效果,只需要更少的计算并且没有假设完美的环境模型。

DP和强化学习的关键思想是使用value function来搜索好的策略。本章要介绍如何使用DP来计算第3章中定义的value function(式3.19或式3.20)

4.1 Policy Evaluation(预测)

policy evaluation: 针对任意一个策略 π \pi π,计算state-value function v π v_\pi vπ,也叫作prediction problem。

第三章已经介绍过了state-value function:
在这里插入图片描述
用式(4.4)的Bellman方程作为更新规则可以逐步逼近:
iterative policy evaluation:
在这里插入图片描述
算法伪码:(不太懂)
终止条件: max ⁡ s ∈ S ∣ v k + 1 ( s ) − v k ( s ) ∣ \max_{s\in\mathcal S} |v_{k+1}(s)-v_k(s)| maxsSvk+1(s)vk(s)足够小
在这里插入图片描述

4.2 Policy Improvement(改进)

计算policy 的state-value function是为了找到更好的策略。
假设对于任意确定的policy π \pi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值