《强化学习与最优控制》学习笔记
文章平均质量分 90
向南而行灬
这个作者很懒,什么都没留下…
展开
-
《强化学习与最优控制》学习笔记(五): 值空间近似的一般问题与方法
这章我们将比较详细地介绍值空间近似的一些方法,对应书中的2.1.1节和2.1.3-2.1.6节的内容。...原创 2022-03-25 23:37:03 · 981 阅读 · 0 评论 -
《强化学习与最优控制》学习笔记(四): Model-Based 与 Model-Free Implementation以及Off-line 与 On-line Method概述
这章主要是介绍一些概念,即 Model-Based 与 Model-Free Implementation以及Off-line 与 On-line Method,方便后面内容的学习。原创 2022-03-14 16:14:16 · 1071 阅读 · 0 评论 -
《强化学习与最优控制》学习笔记(三):强化学习中值空间近似和策略空间近似概述
在本书的第一章就指出,用DP精确求解最优控制问题通常是不可能的,这是因为存在“维度诅咒(curse of dimensionality)”,即随着问题规模的增加,所需的计算和内存存储会迅速增加。此外,在许多情况下,给定问题的结构是预先知道的,但一些数据(例如各种系统参数),可能在准备开始控制之前才知道,因此严重限制了DP计算的可用时间。所以我们通常找不到最优的结果,但是可以找到次优(suboptimal)的方案,即在方便实施性和性能之间做一个合理的平衡。原创 2022-03-13 21:28:47 · 1895 阅读 · 0 评论 -
《强化学习与最优控制》学习笔记(二):强化学习与最优控制的一些术语对比
这篇文章主要讲一下强化学习(RL)和最优控制的一些术语,其实稍微了解强化学习的小伙伴们在学习这本书的时候就会发现,RL和DP虽然优化的目标不一样(RL追寻奖励值的最大化,DP追求开销的最小化),但是无论是在结构上、控制系统上还是在方法上,使用的思想都可以一一对应,如下图所示,这只是我在网上找的一幅图片,本文会就书上1.4节的内容的进行更详细的说明。原创 2022-03-13 17:07:50 · 2215 阅读 · 0 评论 -
《强化学习与最优控制》学习笔记(一):确定性动态规划和随机性动态规划
这本书的作者是Dimitri Panteli Bertsekas教授。因其在算法优化与控制方面以及应用概率论方面编写了多达16本专著而闻名于世。他也是CiteSeer搜索引擎学术数据库中被引用率最高的100位计算机科学作者之一。Bertsekas教授还是Athena Scientific出版社的联合创始人。本人最近开始学习这本书,之前有一些强化学习的基础,在做机器人的一些应用,觉得这本书挺有价值,所以在此分享学习日记。原创 2022-03-13 00:01:44 · 4415 阅读 · 0 评论