![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
浅唱丶
这个作者很懒,什么都没留下…
展开
-
强化学习论文笔记:Real-Time Reinforcement Learning
Real-time Reinforcement Learning简介NeurIPS 2019上蒙特利尔大学的工作在连续时间的决策任务中,环境在动作选择时是实时变化的。作者定义了实时马尔可夫决策过程(RTMDP)并提出强化学习算法Real-Time Actor-Critic(RTAC),相比于传统方法能够更好地学习实时环境下的最优策略问题存在动作选择延迟的连续时间马尔可夫环境下的实时决策问题方法智能体与环境的两种交互方式回合交互:串行,决...原创 2020-07-31 18:58:01 · 1189 阅读 · 0 评论 -
强化学习论文笔记:Soft Actor Critic算法
无模型(model-free)的深度强化学习算法已经在一系列具有挑战性的决策制定和控制任务中得到了证明。然而,相比于基于模型(model-based)的算法,无模型算法通常面临两大挑战:非常高的样本复杂性和脆弱的收敛特性,这需要细致的超参数调优。这两个挑战严重限制了这些方法在复杂的现实世界领域的适用性。在这个框架中,参与者的目标是最大化期望的回报,同时最大化熵。也就是说,在完成任务的同时尽可能随机...原创 2020-04-10 20:13:41 · 3574 阅读 · 0 评论