强化学习3：Bellman方程迭代求解

最新推荐文章于 2024-03-21 09:04:23 发布

哈喽十八子

最新推荐文章于 2024-03-21 09:04:23 发布

阅读量854

点赞数

分类专栏：强化学习文章标签：强化学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36870202/article/details/109698518

版权

强化学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

本文深入探讨了动态规划在解决最优化问题中的应用，重点讲解了Bellman方程的迭代求解方法，以及如何通过策略迭代找到最优策略。内容涵盖数学基础如度量空间、压缩映射和Banach不动点理论。同时，介绍了有模型的策略迭代和价值迭代过程，包括策略评估、改进和原地迭代的空间效率优化。动态规划的思想在解决复杂决策问题中扮演了关键角色。

摘要由CSDN通过智能技术生成

文章目录

Bellman方程迭代求解 -> 最优策略

Bellman方程迭代求解 -> 最优策略

数学基础

度量空间
压缩映射
Bellman算子
Banach不动点理论

有模型策略迭代

广义策略迭代

策略评估
策略改进
策略迭代
节约空间版本（原地迭代）

有模型价值迭代

迭代求解最优价值函数

动态规划思想

哈喽十八子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
强化学习3：Bellman方程迭代求解

文章目录Bellman方程迭代求解 -> 最优策略数学基础有模型策略迭代有模型价值迭代动态规划思想Bellman方程迭代求解 -> 最优策略数学基础度量空间压缩映射Bellman算子Banach不动点理论有模型策略迭代广义策略迭代策略评估策略改进策略迭代节约空间版本（原地迭代）有模型价值迭代迭代求解最优价值函数动态规划思想...
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。