Turing1996-CSDN博客

原创强化学习（二）：Policy Gradient理解

上一章已经介绍了基于值函数方法的简单的DQN的理解，而在深度强化学习领域另一种基于端到端思路的策略梯度（Policy Gradient）算法相较而言可能取得更好的结果，也更加方便理解。于是，本章我们就从有监督学习和强化学习的区别开始讲起，探讨策略梯度思想指导下的强化学习理念的简单理解。在之前的章节：强化学习(一)：简单的DQN理解中，我们已经了解到使用值函数的方法进行强化学习的本质是需要通过奖励的...

2018-04-12 16:19:53 8428 1

原创强化学习(一)：简单的DQN理解

强化学习（reinforcement learning）是一种介于监督学习和非监督学习之间的特殊任务。它并非像监督学习一样对于每一个数据都有着明确的标记信息，也不像无监督学习那样全无标记信息。强化学习有着相对稀疏的反馈标注，即奖励（Reward）。进行学习过程的代理Agent就从这些奖励中，明白自己行为的对错程度，学习如何与环境Environment互动。在目前深度学习领域长足进步的当下，将深度学...

2018-04-10 20:51:11 7485 1

空空如也

单片机 pc通讯时pc显示的数据总是00

2015-06-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习（二）：Policy Gradient理解

原创 强化学习(一)：简单的DQN理解

空空如也

单片机 pc通讯时pc显示的数据总是00

原创强化学习（二）：Policy Gradient理解

原创强化学习(一)：简单的DQN理解