动态展开所有_【强化学习与最优控制】笔记(三)动态规划求解实际问题举例...

这篇笔记介绍了动态规划在最短路问题中的应用,通过实例展示了如何利用动态规划算法找到图中两个节点之间的最短路径。此外,还探讨了动态规划在解决组合优化问题上的潜力,尽管这类问题是NP-hard,但可以通过近似方法结合数学优化技术。最后,文章提到了Linear Quadratic Optimal Control在钢铁生产加热炉控制中的应用,展示了动态规划在实际控制系统中的重要性。
摘要由CSDN通过智能技术生成

a0c341ea35d4b7e70561ddee52947b9d.png

本笔记对应教材中1.3节的内容,这一章所有的例子都围绕前面二节所讲的动态规划算法的核心公式:

前两期的回顾,没有看或者忘记的童鞋可以复习一下:

王源:【强化学习与最优控制】笔记(一)确定性问题的动态规划

王源:【强化学习与最优控制】笔记(二)随机性问题的动态规划

1 最短路问题

最短路问题定义:在一个图中求2个节点之间最短的路径。

最短路问题一般需要假设图中所有的圈的路径非负。因为如果有负的圈的话一直在这个圈子里绕就可以让路径趋于无穷小。

43790c537b9833c08a4aac212a403937.png
图1.1

如上图中(a)所示是给出的无向图,节点5是我们的终点,节点1,2,3,4是起点。在这个最短路问题中比较关键的问题是如何定义stage?

定义为从节点
出发经过N-k个节点到终点
的最优路径长度,其中N为总节点数,

由此可得DP的递推公式

(1.1)

(1.2)

这里需要注意的是因为最短路径所经过的节点数我们事先并不知道,如果拿经过节点数目作为stage的数目的话是比较困难的。因此我们在式(1.1)的

集合中除了要包含和节点
相连的所有节点
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值