《Reinforcement Learning》 读书笔记 4:动态规划(Dynamic Programing)

本文详细介绍了强化学习中动态规划的方法,包括Policy Iteration、Value Iteration、Asynchronous DP和Generalized Policy Iteration。动态规划通过迭代逼近最优策略,有效降低复杂度。文中以gridworld为例,阐述如何通过迭代改进策略以达到最优解。
摘要由CSDN通过智能技术生成
《Reinforcement Learning: An Introduction》 读书笔记 - 目录

为了求解价值函数,或更一步得到最优策略,可以解Bellman方程组,但是当状态集太大时,求解的复杂度太高,所以这一章主要介绍了一些迭代的方式来逼近精确解,在不损失精度的情况下,大幅减少复杂度(对state-value function来说,一般是 O(|S|k) O ( | S | k ) ,即状态数量的多项式)

一些前提说明

  • 接下来的几章主要说明的是一种tabular solution的解法,也就是基于表格的解法
  • 因为state,action的数量有限,所以value可以是一个state的一维表(数组,map),也可以是一个state-action的二维表(数组,map)
  • 这一章的动态规划从形态上来看,和经典的动态规划算法上没什么区别

Policy Evaluation

  • 问题:已知 π π ,怎么更快地计算value-funtion?
  • 思路:找一个序列 { vk} { v k } ,使得 limkvk=vπ lim k → ∞ v k = v π
  • 算法(iterative policy evaluation
    • 过程
      1. 选一个随机/heuristic初始值
      2. 持续用Bellman equation更新 vk v k ,获得 vk+1 v k + 1
      3. 直到 maxsS|vk+
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值