David silver强化学习课程第三课动态规划

最新推荐文章于 2022-11-28 19:35:59 发布

狐狸饲养员

最新推荐文章于 2022-11-28 19:35:59 发布

阅读量378

点赞数 1

文章标签：人工智能强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41823188/article/details/108171921

版权

第三课动态规划

本章主要讲了利用动态规划解决MDP的预测和控制两个问题。策略评估用来解决预测问题，策略迭代和值迭代用来解决控制问题，这都是建立在已知完整信息的MDP问题当中。

1 动态规划简介

动态：指的是该问题的时间序贯部分

规划：指的是去优化一个策略

那么哪些问题可以用动态规划求解呢？需要满足两个特性：

最优子结构：求解问题可以分解为求解若干个子问题，子问题最优解构成了问题的最优解
重叠子问题：子问题重复出现多次，可以缓存并重用子问题的解

MDP恰好满足以上两个特性，贝尔曼方程给出了问题的迭代子问题；值函数可以存储并重用。动态规划用来求解已知全部信息的MDP问题，也就是第一课提到的Planning。动态规划可以用来解决预测和控制两个问题：

预测： [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hYJ2Mlh9-1598089713943)(images/image-20200818090752877.png)]

控制： [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kgobpVwC-1598089713950)(images/image-20200818090806245.png)]

2 迭代策略评估

策略评估就是评价一个策略π的好坏，具体是通过值函数表现出来，也就是说我们需要计算策略π下的状态值函数或状态动作值函数。迭代策略评估用来解决预测问题。

迭代的使用贝尔曼期望方程进行backup，这里的backup有人翻译成反向更新，有人翻译成回溯，个人觉得回溯更准确一些。

同步backup算法（使用t时刻的v(s‘)更新t+1时刻的v(s)，这里是对某一时刻的所有s的值函数进行更新并备份)：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GEPAdh67-1598089713952)(images/image-20200818094112803.png)]

本节后面会讨论异步backup

具体更新公式如下这里对于某个策略π，进行多次backup后状态值将收敛，最终得到的值才评价了策略π的好坏：

最低0.47元/天解锁文章

狐狸饲养员

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
David silver强化学习课程第三课动态规划

第三课动态规划本章主要讲了利用动态规划解决MDP的预测和控制两个问题。策略评估用来解决预测问题，策略迭代和值迭代用来解决控制问题，这都是建立在已知完整信息的MDP问题当中。1 动态规划简介动态：指的是该问题的时间序贯部分规划：指的是去优化一个策略那么哪些问题可以用动态规划求解呢？需要满足两个特性：最优子结构：求解问题可以分解为求解若干个子问题，子问题最优解构成了问题的最优解重叠子问题：子问题重复出现多次，可以缓存并重用子问题的解MDP恰好满足以上两个特性，贝尔曼方程给出了问题的迭代子问
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。