11.25学习强化学习第三天——动态规划寻找最优策略

最新推荐文章于 2023-12-31 01:10:32 发布

wdlovecjy

最新推荐文章于 2023-12-31 01:10:32 发布

阅读量593

点赞数

分类专栏：强化学习之路文章标签：强化学习动态规划算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wdlovecjy/article/details/121549536

版权

强化学习之路2（动态规划寻找最优策略）

本文还是借鉴知乎大神叶强的文章，如有侵权，会删除，本文只是自己得到的一点思考。

简介

动态规划算法是解决复杂问题的一个方法，算法通过把复杂问题分解为子问题，通过求解子问题进而得到整个问题的解。在解决子问题的时候，其结果通常需要存储起来被用来解决后续复杂问题。当问题具有下列特性时，通常可以考虑使用动态规划来求解：第一个特性是一个复杂问题的最优解由数个小问题的最优解构成，可以通过寻找子问题的最优解来得到复杂问题的最优解；子问题在复杂问题内重复出现，使得子问题的解可以被存储起来重复利用。
马尔科夫决定过程（MDP）具有上述两个属性：Bellman方程把问题递归为求解子问题，价值函数就相当于存储了一些子问题的解，可以复用。因此可以使用动态规划来求解MDP。
分为两个问题

预测问题
2. 控制问题
自己想的就是是否可以利用强化学习问题去做一些控制问题。

迭代法策略评估Iterative Policy Evaluation

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
11.25学习强化学习第三天——动态规划寻找最优策略

强化学习之路2（动态规划寻找最优策略）本文还是借鉴知乎大神叶强的文章，如有侵权，会删除，本文只是自己得到的一点思考。简介动态规划算法是解决复杂问题的一个方法，算法通过把复杂问题分解为子问题，通过求解子问题进而得到整个问题的解。在解决子问题的时候，其结果通常需要存储起来被用来解决后续复杂问题。当问题具有下列特性时，通常可以考虑使用动态规划来求解：第一个特性是一个复杂问题的最优解由数个小问题的最优解构成，可以通过寻找子问题的最优解来得到复杂问题的最优解；子问题在复杂问题内重复出现，使得子问题的解可以被存储
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。