文章目录
- 1. Deterministic Policy Gradient Algorithms
- 2. Continuous control with deep reinforcement learning
- 3.Continuous-time Markov Decision Process with Average Reward: Using Reinforcement Learning Method
- 4. A Survey of Reinforcement Learning Research and Its Application for Multi-Robot Systems
- 5. An actor-critic algorithm for constrained Markov decision processes
- 6. Recent Advances in Deep Reinforcement Learning Applications for Solving Partially Observable Markov Decision Processes (POMDP) Problems: Part 1-Fundamentals and Applications in Games, Robotics and Natural Language Processing
- 7.Evolutionary computation on multitask reinforcement learning problems
- 8. Reinforcement learning for MDPs with constraints
1. Deterministic Policy Gradient Algorithms
简称:DPG
论文解析:https://blog.csdn.net/weixin_39059031/article/details/104612083
bib:
@article{2014Deterministic,
title={Deterministic Policy Gradient Algorithms},
author={ Silver, David and Lever, Guy and Heess, Nicolas and Degris, Thomas and Riedmiller, Martin },
journal={JMLR.org},
year={2014},
}
2. Continuous control with deep reinforcement learning
简称:DDPG
论文解析:https://www.cnblogs.com/lucifer1997/p/13890666.html
被引:评论家网络采取国家立场行动 输入,并输出动作值。 具体来说,评论家通过以下方式近似动作值函数 Qπθ(s, a)最小化以下损失(Lillicrap 等人,2015 年):
bib:
@article{2015Continuous,
title={Continuous control with deep reinforcement learning},
author={ Lillicrap, Timothy Paul and Hunt, Jonathan James and Pritzel, Alexander and Heess, Nicolas and Erez, Tom and Tassa, Yuval and Silver, David and Wierstra, Daan },
journal={Computer ence},
year={2015},
doi={https://doi.org/10.48550/arXiv.1509.02971},
}
3.Continuous-time Markov Decision Process with Average Reward: Using Reinforcement Learning Method
摘要:
马尔可夫决策过程 (MDP) 是序列决策问题中先进的强化学习的基础框架。 连续时间马尔可夫决策过程 (CTMDP) 通过允许随时发生动作来扩展离散时间 MDP 模型。 先前的工作很少考虑用于解决 CTMDP 的强化学习方法。 我们文章的目的是提出一种基于样本路径的强化学习方法。 针对性能潜力函数的关键概念,提出了一种具有平均奖励的策略迭代算法。 然后,通过Robbins-Monro方法,还提出了评价性能势函数的时间差公式。 仿真结果表明,所提出的算法能够以适当的速度收敛到CTMDP问题的解决方案。
4. A Survey of Reinforcement Learning Research and Its Application for Multi-Robot Systems
摘要:
强化学习旨在通过反复试验和与动态环境的交互来获得最优/次优策略。 在介绍了强化学习的基础知识之后,分别讨论了基于马尔可夫决策模型的TD算法、Q-learning算法、Dyna算法和Sarsa算法。 此外,分别分析了基于部分可观察马尔可夫决策过程和不确定环境下半马尔可夫决策模型的强化学习。 介绍了Q学习在多机器人系统领域的研究现状。 最后,给出了主要的挑战和进一步的研究工作。
5. An actor-critic algorithm for constrained Markov decision processes
摘要:
针对受约束的受控马尔可夫决策过程,提出并分析了演员-评论家类型的强化学习算法。 该分析使用多尺度随机逼近理论和数理经济学的“包络定理”。 © 2004 Elsevier B.V. 保留所有权利。
6. Recent Advances in Deep Reinforcement Learning Applications for Solving Partially Observable Markov Decision Processes (POMDP) Problems: Part 1-Fundamentals and Applications in Games, Robotics and Natural Language Processing
摘要:
由两部分组成的系列论文的第一部分概述了深度强化学习 (DRL) 应用程序在解决部分可观察马尔可夫决策过程 (POMDP) 问题方面的最新进展。强化学习(RL)是一种模拟人类自然学习过程的方法,其关键是让智能体通过与随机环境的交互来学习。代理对环境信息的访问有限这一事实使人工智能能够有效地应用于大多数需要自学的领域。虽然高效的算法正在被广泛使用,但进行有组织的调查似乎必不可少——我们可以在将 DRL 应用于各种应用时进行良好的比较并选择最佳的结构或算法。在本概述中,我们介绍了马尔可夫决策过程 (MDP) 问题和强化学习以及 DRL 在解决游戏、机器人和自然语言处理中的 POMDP 问题中的应用。后续论文将涵盖运输、通信和网络以及工业领域的应用。
7.Evolutionary computation on multitask reinforcement learning problems
摘要:
最近,可以同时处理多个任务的多任务学习备受关注。 Tanaka 等人引入的多任务强化学习是一个问题类,其中从相同概率分布中采样的马尔可夫决策过程的问题实例的数量依次提供给强化学习代理。 解决这个问题的目的是利用从过去的经验中获得的知识,为新给定的环境实现自适应代理。 如果问题类别与马尔可夫决策过程完全不同或状态-动作空间非常大,则进化算法通常用于解决强化学习问题。 从进化算法研究的角度来看,多任务强化学习问题被视为适应度景观随时间变化的动态问题。 在本文中,提出了一种适用于多任务强化学习问题的基于记忆的进化规划。
8. Reinforcement learning for MDPs with constraints
摘要:
在本文中,我将考虑具有两个标准的马尔可夫决策过程,每个标准定义为无限期累积回报的期望值。 第二个标准要么本身受不等式约束,要么存在单个回报违反约束的最大允许概率。 我描述并讨论了解决此类控制问题的三种新的强化学习方法。
9. Human-level control through deep reinforcement learning
@article{2015Human,
title={Human-level control through deep reinforcement learning},
author={ Volodymyr, Mnih and Koray, Kavukcuoglu and David, Silver and Rusu, Andrei A, and Joel, Veness and Bellemare, Marc G, and Alex, Graves and Martin, Riedmiller and Fidjeland, Andreas K, and Georg, Ostrovski and },
journal={Nature},
volume={518},
number={7540},
pages={529-33},
year={2015},
}