【参文】MDP(一)

1. Deterministic Policy Gradient Algorithms

简称:DPG
论文解析:https://blog.csdn.net/weixin_39059031/article/details/104612083
bib:

@article{2014Deterministic,
  title={Deterministic Policy Gradient Algorithms},
  author={ Silver, David  and  Lever, Guy  and  Heess, Nicolas  and  Degris, Thomas  and  Riedmiller, Martin },
  journal={JMLR.org},
  year={2014},
}

2. Continuous control with deep reinforcement learning

简称:DDPG
论文解析:https://www.cnblogs.com/lucifer1997/p/13890666.html
被引:评论家网络采取国家立场行动 输入,并输出动作值。 具体来说,评论家通过以下方式近似动作值函数 Qπθ(s, a)最小化以下损失(Lillicrap 等人,2015 年):
bib:

@article{2015Continuous,
  title={Continuous control with deep reinforcement learning},
  author={ Lillicrap, Timothy Paul  and  Hunt, Jonathan James and  Pritzel, Alexander  and  Heess, Nicolas  and  Erez, Tom  and  Tassa, Yuval  and  Silver, David  and  Wierstra, Daan },
  journal={Computer ence},
  year={2015},
  doi={https://doi.org/10.48550/arXiv.1509.02971},
}

3.Continuous-time Markov Decision Process with Average Reward: Using Reinforcement Learning Method

摘要:
马尔可夫决策过程 (MDP) 是序列决策问题中先进的强化学习的基础框架。 连续时间马尔可夫决策过程 (CTMDP) 通过允许随时发生动作来扩展离散时间 MDP 模型。 先前的工作很少考虑用于解决 CTMDP 的强化学习方法。 我们文章的目的是提出一种基于样本路径的强化学习方法。 针对性能潜力函数的关键概念,提出了一种具有平均奖励的策略迭代算法。 然后,通过Robbins-Monro方法,还提出了评价性能势函数的时间差公式。 仿真结果表明,所提出的算法能够以适当的速度收敛到CTMDP问题的解决方案。

4. A Survey of Reinforcement Learning Research and Its Application for Multi-Robot Systems

摘要:
强化学习旨在通过反复试验和与动态环境的交互来获得最优/次优策略。 在介绍了强化学习的基础知识之后,分别讨论了基于马尔可夫决策模型的TD算法、Q-learning算法、Dyna算法和Sarsa算法。 此外,分别分析了基于部分可观察马尔可夫决策过程和不确定环境下半马尔可夫决策模型的强化学习。 介绍了Q学习在多机器人系统领域的研究现状。 最后,给出了主要的挑战和进一步的研究工作。

5. An actor-critic algorithm for constrained Markov decision processes

摘要:
针对受约束的受控马尔可夫决策过程,提出并分析了演员-评论家类型的强化学习算法。 该分析使用多尺度随机逼近理论和数理经济学的“包络定理”。 © 2004 Elsevier B.V. 保留所有权利。

6. Recent Advances in Deep Reinforcement Learning Applications for Solving Partially Observable Markov Decision Processes (POMDP) Problems: Part 1-Fundamentals and Applications in Games, Robotics and Natural Language Processing

摘要:
由两部分组成的系列论文的第一部分概述了深度强化学习 (DRL) 应用程序在解决部分可观察马尔可夫决策过程 (POMDP) 问题方面的最新进展。强化学习(RL)是一种模拟人类自然学习过程的方法,其关键是让智能体通过与随机环境的交互来学习。代理对环境信息的访问有限这一事实使人工智能能够有效地应用于大多数需要自学的领域。虽然高效的算法正在被广泛使用,但进行有组织的调查似乎必不可少——我们可以在将 DRL 应用于各种应用时进行良好的比较并选择最佳的结构或算法。在本概述中,我们介绍了马尔可夫决策过程 (MDP) 问题和强化学习以及 DRL 在解决游戏、机器人和自然语言处理中的 POMDP 问题中的应用。后续论文将涵盖运输、通信和网络以及工业领域的应用。

7.Evolutionary computation on multitask reinforcement learning problems

摘要:
最近,可以同时处理多个任务的多任务学习备受关注。 Tanaka 等人引入的多任务强化学习是一个问题类,其中从相同概率分布中采样的马尔可夫决策过程的问题实例的数量依次提供给强化学习代理。 解决这个问题的目的是利用从过去的经验中获得的知识,为新给定的环境实现自适应代理。 如果问题类别与马尔可夫决策过程完全不同或状态-动作空间非常大,则进化算法通常用于解决强化学习问题。 从进化算法研究的角度来看,多任务强化学习问题被视为适应度景观随时间变化的动态问题。 在本文中,提出了一种适用于多任务强化学习问题的基于记忆的进化规划。

8. Reinforcement learning for MDPs with constraints

摘要:
在本文中,我将考虑具有两个标准的马尔可夫决策过程,每个标准定义为无限期累积回报的期望值。 第二个标准要么本身受不等式约束,要么存在单个回报违反约束的最大允许概率。 我描述并讨论了解决此类控制问题的三种新的强化学习方法。

9. Human-level control through deep reinforcement learning

@article{2015Human,
  title={Human-level control through deep reinforcement learning},
  author={ Volodymyr, Mnih  and  Koray, Kavukcuoglu  and  David, Silver  and  Rusu, Andrei A,  and  Joel, Veness  and  Bellemare, Marc G,  and  Alex, Graves  and  Martin, Riedmiller  and  Fidjeland, Andreas K,  and  Georg, Ostrovski  and },
  journal={Nature},
  volume={518},
  number={7540},
  pages={529-33},
  year={2015},
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值