David silver强化学习课程第三课 动态规划

第三课 动态规划

本章主要讲了利用动态规划解决MDP的预测和控制两个问题。策略评估用来解决预测问题,策略迭代和值迭代用来解决控制问题,这都是建立在已知完整信息的MDP问题当中。

1 动态规划简介

动态:指的是该问题的时间序贯部分

规划:指的是去优化一个策略

那么哪些问题可以用动态规划求解呢?需要满足两个特性:

  • 最优子结构:求解问题可以分解为求解若干个子问题,子问题最优解构成了问题的最优解
  • 重叠子问题:子问题重复出现多次,可以缓存并重用子问题的解

MDP恰好满足以上两个特性,贝尔曼方程给出了问题的迭代子问题;值函数可以存储并重用。动态规划用来求解已知全部信息的MDP问题,也就是第一课提到的Planning。动态规划可以用来解决预测和控制两个问题:

预测:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hYJ2Mlh9-1598089713943)(images/image-20200818090752877.png)]

控制:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kgobpVwC-1598089713950)(images/image-20200818090806245.png)]

2 迭代策略评估

策略评估就是评价一个策略π的好坏,具体是通过值函数表现出来,也就是说我们需要计算策略π下的状态值函数或状态动作值函数。迭代策略评估用来解决预测问题。

迭代的使用贝尔曼期望方程进行backup,这里的backup有人翻译成反向更新,有人翻译成回溯,个人觉得回溯更准确一些。

同步backup算法(使用t时刻的v(s‘)更新t+1时刻的v(s),这里是对某一时刻的所有s的值函数进行更新并备份):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GEPAdh67-1598089713952)(images/image-20200818094112803.png)]

本节后面会讨论异步backup

具体更新公式如下这里对于某个策略π,进行多次backup后状态值将收敛,最终得到的值才评价了策略π的好坏:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值