![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
近似动态规划和强化学习 - ADP&RL
文章平均质量分 89
Approximate Dynamic Programming and Reinforcement Learning
Stan Fu
这个作者很懒,什么都没留下…
展开
-
ADPRL - 近似动态规划和强化学习 - Note 12 - 数值时序差分学习(Numerical TD Learning)
正如前两章所讨论的,TD学习是一种理论上很合理的基于抽样的算法机制,以解决模型的诅咒问题。在LFA设置下,DP的一个常见做法是采用策略迭代的框架来获得一个最优策略。也就是说,采用LFA的TD算法评估给定策略的总成本,然后采取策略改进步骤,完成基于抽样的PI框架的一次扫描。原创 2022-01-31 07:15:34 · 1280 阅读 · 0 评论 -
ADPRL - 近似动态规划和强化学习 - Note 11 - 时序差分学习(Theory of TD learning)
在上个Note中,我们重温了强化学习的基础概念,即时序差分学习和它的扩展与资格迹。由于时序差分算法的简单性和突出的性能,用线性函数近似法(LFA)对TD机制的扩展肯定对解决维度诅咒有很大优点。原创 2022-01-26 19:54:17 · 983 阅读 · 0 评论 -
ADPRL - 近似动态规划和强化学习 - Note 10 - 蒙特卡洛法和时序差分学习及其实例 (Monte Carlo and Temporal Difference)
前面几章重点讨论了解决DP中的维度诅咒问题,并强假设系统动态,即MDP模型中的状态转换概率,对智能体来说是可以完全访问的。不幸的是,这样的假设在大多数工程应用中是不现实的。因此,这种情况是强化学习的主要焦点,有时被称为DP中的模型诅咒(curse of model)。本章研究了可以说是最基本的无模型RL算法,即时序差分学习。原创 2022-01-26 06:33:32 · 677 阅读 · 0 评论 -
ADPRL - 近似动态规划和强化学习 - Note 8 - 近似策略迭代 (Approximate Policy Iteration)
在Note 7 中,我们介绍了参数化函数近似的概念,以及它在近似值迭代算法中的应用。尽管AVI的收敛特性已被证明是有希望的,但它与原始VI算法的内在限制仍然存在。在本节中,我们开发了一个近似策略迭代算法的框架。8.1 通用框架 (A Generic Framework)与近似的VI算法类似,我们可以构建一个体系来近似策略评估和策略改进步骤...原创 2022-01-09 06:59:39 · 933 阅读 · 0 评论 -
ADPRL - 近似动态规划和强化学习 - Note 7 - Approximate Dynamic Programming
在前面的章节中,我们研究了经典DP算法的理论基础和它们的高级变化。尽管这些算法具有良好的理论特性,但在许多实际应用中,这些算法仍然是低效的,甚至是不切实际的。这种现象主要是由于维数的诅咒,它在存储或计算方面都会造成潜在的高负担。SDM的一个具有挑战性的应用是边缘计算,其中计算和数据存储被推到数据源上。显然,对于任何经典的DP算法来说,边缘的计算能力和存储容量都是非常有限的。更具体地说,本节重点讨论维度诅咒的存储角度。原创 2021-12-20 23:14:38 · 1515 阅读 · 0 评论 -
ADPRL - 近似动态规划和强化学习 - Note 6 - Mitigating the Curse of Dimensionality
到目前为止,我们已经讨论了几种经典的DP算法,即VI、PI、OPI和优化的lambda-PI。所有这些方法中最关键的一个问题是维度诅咒,即在每一步,这些算法中的任何一种都需要更新所有状态的总成本函数。显然,当状态空间很大时,在VI算法中计算总成本,或在PI算法中推导GIP,代价都会非常大。在这一节中,我们研究了两种流行的技术来缓解维度诅咒。原创 2021-12-09 07:25:30 · 626 阅读 · 0 评论 -
ADPRL - 近似动态规划和强化学习 - Note 5 - Banach Fixed Point Theorem in Dynamic Programming
如上两节所示,VI算法和PI算法都拥有各自的优势和劣势。具体来说,VI算法是一种简单的迭代算法,但它在总成本函数空间的收敛性方面可能是低效的。虽然PI算法在探索策略空间的有限性和在策略空间中达到更好的收敛性方面有一个很好的特性,但它仍然会受到精确策略评估的瓶颈影响。尽管OPI算法自然地连接了这两种算法,但它的性能是由有限策略评估的数量选择决定的。在本节中,我们旨在通过探索*巴拿赫固定点定理的属性来缓解这种限制,并仍然保留简单和快速收敛的有希望的属性。原创 2021-11-29 07:26:33 · 454 阅读 · 2 评论 -
ADPRL - 近似动态规划和强化学习 - Note 4 - Policy Iteration Algorithms
4. Policy Iteration Algorithms在Note 3中,我们开发了解决无限范围MDP问题的VI算法。尽管该算法很简单,而且具有良好的理论收敛特性,但很明显,当状态空间很大时,该算法的效率会很低。VI算法实际上也变得不可行,因为它需要无限次地迭代以达到策略空间中的必要和充分的最优条件。此外,由于每个可接受的策略都有一个唯一的总成本函数,而唯一策略的总数是有限的,很明显,由VI算法产生的大多数总成本函数估计值并不对应于任何合法策略。换句话说,VI算法对于解决具有有限状态和行动空间的MDP原创 2021-11-25 05:44:06 · 956 阅读 · 0 评论 -
ADPRL - 近似动态规划和强化学习 - Note 3 - Stochastic Infinite Horizon Problem
尽管有限范围问题的构造基本上是现实的,但由于维数的诅咒(curse of dimensionality),在大规模的实际问题中,它可能仍然不切实际。具体来说,当范围巨大时,系统方程模型中的阶段性系统函数,以及每个阶段的成本函数要么过于复杂,无法建模,要么存储量太大。即使问题的范围确实是有限的,例如围棋游戏,终端状态也很难被确定。处理这些问题的一个简单的办法是简单地让终端不被指定和开放。有了这样一个假设,阶段信息就变得不重要了。原创 2021-11-23 22:00:37 · 1354 阅读 · 1 评论 -
ADP&RL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem
在这一节中主要介绍了随机DP算法来解决不确定性下的有限地范围问题,如Denition 1.4所述,它被表述为一个组合优化问题。众所周知,由于组合爆炸,它是一个极其困难的问题。为了从结构上缓解这种极端的复杂性,一种方法是对所有决策规则的空间进行建模,这样就可以在一些方便的搜索空间,即策略空间中有效地解决这个问题。原创 2021-11-09 04:47:57 · 1180 阅读 · 0 评论 -
ADP&RL - 近似动态规划和强化学习 - Note 1 - Introduction
1. IntorductionSDM: sequential decision makingDP: Dynamic Programming1.1 Desision makingJust a introduction to decision making, also gives some examples, one is AlphaGo, and the other is Autonomous Driving.1.2 Modelling Sequential Decision Making定义1原创 2021-10-27 19:46:01 · 1834 阅读 · 0 评论