强化学习
Turing1996
时而抽风的认真读博
展开
-
强化学习(一):简单的DQN理解
强化学习(reinforcement learning)是一种介于监督学习和非监督学习之间的特殊任务。它并非像监督学习一样对于每一个数据都有着明确的标记信息,也不像无监督学习那样全无标记信息。强化学习有着相对稀疏的反馈标注,即奖励(Reward)。进行学习过程的代理Agent就从这些奖励中,明白自己行为的对错程度,学习如何与环境Environment互动。在目前深度学习领域长足进步的当下,将深度学...原创 2018-04-10 20:51:11 · 7488 阅读 · 1 评论 -
强化学习(二):Policy Gradient理解
上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解。于是,本章我们就从有监督学习和强化学习的区别开始讲起,探讨策略梯度思想指导下的强化学习理念的简单理解。在之前的章节:强化学习(一):简单的DQN理解中,我们已经了解到使用值函数的方法进行强化学习的本质是需要通过奖励的...原创 2018-04-12 16:19:53 · 8430 阅读 · 1 评论