人工智能教程 - 专业选修课程4.3.5 - 强化学习 11.价值迭代,预测和控制问题解决方案汇总

KuFun元宇宙

于 2020-03-02 20:22:25 发布

阅读量185

点赞数

分类专栏：专业选修课程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fsdaewrq/article/details/104618569

版权

专业选修课程专栏收录该内容

32 篇文章 5 订阅

订阅专栏

这篇博客深入探讨了强化学习中的价值迭代方法，解释了其作为最优化原则的定义，通过反复迭代过程解决最短路径问题。在未知终点的情况下，从初始状态开始逐步扩散，最终找到最优路径。同时，文章还总结了预测和控制问题的解决方案。

摘要由CSDN通过智能技术生成

最优化原则

Principle of Optimality

在这里插入图片描述

价值迭代的定义

Value Iteration
在这里插入图片描述

反复的迭代的过程。

最短路径的例子

在这里插入图片描述

此类情况是在不知道终点在哪儿的情况。从初始状态0开始出发，逐步扩散迭代直到找到最短路径。

在这里插入图片描述

在这里插入图片描述

预测和控制问题解决方案汇总

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
人工智能教程 - 专业选修课程4.3.5 - 强化学习 11.价值迭代,预测和控制问题解决方案汇总

最优化原则Principle of Optimality价值迭代的定义Value Iteration反复的迭代的过程。最短路径的例子此类情况是在不知道终点在哪儿的情况。从初始状态0开始出发，逐步扩散迭代直到找到最短路径。预测和控制问题解决方案汇总...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。