David Sliver强化学习课程第三讲笔记总结

最新推荐文章于 2023-02-10 11:12:38 发布

lueluewaaa

最新推荐文章于 2023-02-10 11:12:38 发布

阅读量98

点赞数

分类专栏：强化学习笔记文章标签：强化学习笔记总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42825220/article/details/97296635

版权

强化学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

DS-3

如何解决形式化后的MDP

动态：对于问题来说是序列的或时序的

规划：策略

动态规划：将复杂问题分解为子问题，将子问题的答案进行结合得到原问题的解

适用于：

①最优化结构：原问题可以分解为两个及以上的子问题，并通过对子问题的最优化求解来获得原问题的最优解——最短路径；

②重叠子问题：子问题是不断重复的，子问题可以被多次重复使用

MDP符合上述两个特征，另外贝尔曼方程是一种递归组合，值函数记录了目前状态的最优值信息

动态规划假设了对MDP的全部知识，

预测：拥有MDP的全部知识和策略，进行策略评估

控制：优化问题，拥有MDP的全部知识，但不知道策略，目的是寻找最优策略

策略估计：

使用贝尔曼期望方程来评估策略，使用贝尔曼最优方程解决控制问题。

同步备份，每次迭代会用到所有的状态

根据上一轮迭代的旧的估计来更新这一轮迭代的估值

策略迭代：①计算当前策略值函数（策略估计）；②提升策略

通常都会收敛至一个最优策略

最优策略的定义：任何满足贝尔曼最优方程的策略即为最优策略

值迭代：不断计算值函数，更新

每个value并不一定是真实策略的value，可能只是中间步骤

直接使用argmax则表示使用了贝尔曼最优方程求解

同步的动态规划并不预先知道目标在哪，因此需要更新每一个状态，而不是从目标开始向后扫描更新

预测：解决给定策略求回报的问题，采用贝尔曼期望方程和迭代策略估计

控制：如何获得更多的回报，采用贝尔曼期望方程+贪心策略提升和策略迭代

控制：如何获得更多的回报，采用贝尔曼最优方程和值迭代

状态-值函数的时间复杂度O(mn2)

动作-值函数的时间复杂度O(m2n2)

其中m表示动作数，n表示状态数

异步更新状态有利于节省计算量

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
David Sliver强化学习课程第三讲笔记总结

DS-3如何解决形式化后的MDP动态：对于问题来说是序列的或时序的规划：策略动态规划：将复杂问题分解为子问题，将子问题的答案进行结合得到原问题的解适用于：①最优化结构：原问题可以分解为两个及以上的子问题，并通过对子问题的最优化求解来获得原问题的最优解——最短路径；②重叠子问题：子问题是不断重复的，子问题可以被多次重复使用MDP符合上述两个特征，另外贝尔曼方程是...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。