oni小涛-CSDN博客

翻译 Event-Triggered H∞ Control for Continuous-Time Nonlinear System via Concurrent Learning

摘要本文利用事件触发法研究了一类连续时间非线性系统的H∞最优控制问题。①首先，H∞最优控制问题被公式化为二人零和（ZS）差分博弈。②然后，利用事件触发的控制策略和时间触发的干扰策略，为ZS博弈导出自适应触发条件。仅当不满足触发条件时才更新事件触发的控制器。因此，减少了设备与控制器之间的通信。③此外，提供最小采样时间的正下界以避免Zeno行为。④为了实现目的，提出了事件触发的并发学习算法...

2019-02-23 14:10:26 2922 5

翻译 Robust Differential Game Guidance Laws Design for Uncertain Interceptor-Target Engagement via ADP

原文：https://download.csdn.net/download/qq_29675093/10969822南京航空航天大学孙景亮的论文，二人零和博弈框架下研究导弹拦截机动目标，使用的方法是自适应动态规划，从理念上跟利用critic网络进行强化学习很接近的，但是由于模型已知，使用残差可以直接根据模型调整critic网络的权值，而控制量也是critic网络权值的函数。本文中的crit...

2019-02-23 10:37:38 2122 2

翻译 Planar Evasive Aircrafts Maneuvers Using Reinforcement Learning

原文下载：https://download.csdn.net/download/qq_29675093/10950893虽然是2012年的论文，但是无论从理论深度还是实用价值都不足。动作限定很死，左右离散二值。从论文内容上看，也要怀疑作者是否真的实现了仿真学习过程。因为10e8的状态空间如何处理文中并没有提到，式（13）的奖励设计也很可笑，速度小于零的要求毫无必要。我是从孙景亮等: 《基于自适...

2019-02-23 10:29:48 713 2

翻译 A Neighboring Optimal Adaptive Critic for Missile Guidance

文章下载链接 https://download.csdn.net/download/qq_29675093/10941949摘要 - 我们提出了一种基于适应性评估概念的导弹制导神经网络方法。该方法源于线性最优制导律的名义解和邻域最优控制律的使用。在神经网络训练中，没有关于目标机动动力学的假定（假定动力学模型未知）。我们讨论神经网络控制器训练问题，并将神经网络控制系统结果与从最优控制方程获...

2019-01-28 23:14:59 758

翻译 option-critic 架构

时域抽象（Temporal abstraction）是拓展强化学习中学习和规划的关键。虽然在对时域上扩展的行为进行规划已经有了很好的理解，但是从数据中自主地创建这样的抽象仍然具有挑战性。我们在选项（option）框架中解决了这个问题[Sutton，Precup＆Singh，1999; Precup，2000]。我们推导得出了option的策略权重定理，并提出了一个新的 option - cr...

2019-01-23 22:12:01 2835

原创 LSPI 小车上山实例

《Reinforcement Learning: State-of-the-Art》第三章 Least-Squares Methods for Policy Iteration 第五节举例说明最小二乘法对策略迭代的行为。将离线LSPI和在线乐观LSPI两种方法，应用于car-on-the-hill问题（Moore和Atkeson，1995），这是近似强化学习的经典benchmark。由...

2019-01-18 14:12:56 1342

原创最小二乘策略迭代 least-squares policy iteration (LSPI)

LSPI是将价值函数逼近与线性架构和近似策略迭代相结合的方法。LSPI也可以理解为是LSTD与Q学习相结合。用于预测问题的最小二乘时间差分学习算法（LSTD），学习固定策略的状态值函数，相比纯粹的时间差分算法更有效率地使用样本经验。最小二乘策略迭代（LSPI）学习状态 - 动作值函数，该函数允许在没有模型的情况下进行动作选择，并且在策略迭代框架内进行增量策略改进。 LSPI是一种免模型(m...

2019-01-15 23:58:27 5002 1

翻译一种通用的卡尔曼滤波不动点近似和有效的时间差分学习

我想梳理一下强化学习与滤波的关系，找到了这篇文献。读了介绍的部分

2019-01-14 23:41:12 820 2

翻译最优停止问题简单综述 2005年

MONTE CARLO ALGORITHMS FOR OPTIMAL STOPPING AND STATISTICAL LEARNINGDANIEL EGLOFFAnnals of Applied Probability, 2004, 15(2):1396-1432. 只是截取里面的综述部分，算法内容看不懂。。。摘要：我们扩展了Longsta-Schwartz算法，用于...

2019-01-09 15:56:19 2230

翻译马尔可夫过程的最优停止：Hilbert空间理论，近似算法及其在高维金融衍生产品定价中的应用

本文给出了一个马尔科夫最优停止问题的benchmark，并使用核函数近似强化学习求解。第二节定义了马尔科夫最优停止问题；算法在第三节，因为教材里面这种算法已经讲得很系统了，没有细看，这里也省略了。我着重读了第四节，是benchmark的定义和求解。

2019-01-08 20:48:10 1985

翻译最大奖励强化学习：非累积奖励判断标准

Title: Maximum reward reinforcement learning: A non-cumulative reward criterionAuthor: K.H. Quah, Chai Quek Nanyang Technological UniversityJournal: Expert Systems with Applications 31 (2006) 351–3...

2019-01-08 14:44:15 3976

翻译 Why Most Decisions Are Easy in Tetris—And Perhaps in Other Sequential Decision Problems, As Well

读到一半觉得此文价值不大，后一半翻译较粗略。本文介绍了通过优势计算去除明显不好的动作选项的方法，这在工程应用上算是实用方法，但是几乎无法获得最好的结果。题目：为什么大部分决策在俄罗斯方块中都很容易——也许在其他序贯决策问题中也是如此摘要我们检查了俄罗斯方块游戏中遇到的决策问题的顺序，发现大多数问题在下面的情境都很容易：不需要知道在游戏中得分良好的评价函数，就能在可选的操作中做出选...

2019-01-05 17:26:44 425

翻译《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.6 人工智能的未来

当我们在20世纪90年代中期撰写本书的第一版时，人工智能正在取得重大进展并对社会产生影响，尽管人工智能仍然承诺会带来鼓舞人心的发展。机器学习是这种展望的一部分，但它尚未成为人工智能不可或缺的一部分。到目前为止，这一承诺已经转变为改变数百万人生活的应用程序，机器学习已经成为一项关键技术。在我们写第二版时，人工智能中一些最显著的发展涉及强化学习，最明显的是“深度强化学习”——通过深度人工神经网络进行函...

2019-01-03 16:46:42 949

翻译《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.5 剩下的问题

在本书中，我们提出了人工智能强化学习方法的基础。粗略地说，这种方法基于无模型和基于模型的方法协同工作，如第8章的Dyna架构，结合第II部分中开发的函数逼近。重点放在在线和增量算法上，我们认为这些算法甚至是基于模型的方法的基础，以及如何在异策略训练情境中应用这些算法。后者的全部理由仅在最后一章中提出。也就是说，我们一直将异策略学习作为一种有吸引力的方式来处理探索/利用困境，也就是说，我们一直将离策...

2019-01-03 16:22:36 1443

翻译 Predictive State Temporal Difference Learning 原文翻译预测状态时间差分学习

Predictive State Temporal Difference LearningByron Boots，Geoffrey J. Gordon，2010，nips摘要我们提出了一种新的价值函数逼近方法，它将线性时间差分强化学习与子空间识别相结合。在实际应用中，强化学习（RL）由于状态是高维的或部分可观察的这一事实而变得复杂。因此，RL方法被设计为与状态特征而不是状态本身一起工作...

2019-01-03 15:37:24 773

翻译《Reinforcement Learning: An Introduction》强化学习导论原文翻译17.2 通过选项(option)做时域抽象

这一节介绍了基于option的分层强化学习方法的原理。从本书的思维出发做了透彻分析。

2019-01-03 11:34:13 929

翻译《Reinforcement Learning: An Introduction》强化学习导论原文翻译17.1 广义价值函数和辅助任务

通过广义价值函数引出两种辅助任务强化学习和基于option的强化学习。

2019-01-02 22:30:37 523

翻译《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.3 观察与状态

在本书中，我们将学习的近似值函数（以及第13章中的策略）写为环境状态的函数。这是第一部分中提出的方法的一个重要限制，其中学习值函数被实现为一个表，这样任何值函数都可以精确地近似；这种情况等于假设环境状态被agent完全观测。但是在许多情形下，包括在所有自然智慧生命中，感官输入仅提供关于世界状态的部分信息。某些物体可能被其他物体遮挡，或在agent后面，或几英里外。在这些情况下，环境状态的潜在重要方...

2018-12-29 09:39:12 3795

翻译《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.4 设计奖励信号

17.4 设计奖励信号强化学习优于监督学习的一个主要优点是强化学习不依赖于详细的指导信息：产生奖励信号不依赖于知道Agent的正确行为应该是什么。但强化学习应用程序的成功在很大程度上取决于奖励信号设计应用程序设计者的目标有多好，以及实现该目标的过程中，信号评估的进展有多好。出于这些原因，设计奖励信号是任何强化学习应用的关键部分。通过设计奖励信号，我们的目的是设计Agent环境的一部分...

2018-12-27 10:30:13 1491

翻译人工智能将永远不可理解吗？Is Artificial Intelligence Permanently Inscrutable?

这篇文章讨论了一个非常重要的上层问题——模型的正确性与模型的可预测性的问题。

2017-06-29 00:20:02 579

Optimal stopping of Markov processes

1999_tsitsiklis_Optimal stopping of Markov processes Hilbert space theory, approximation algorithms, and an application to pricing high-dimensional financial derivatives

2019-01-08