自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 问答 (1)
  • 收藏
  • 关注

原创 强化学习(二):Policy Gradient理解

上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解。于是,本章我们就从有监督学习和强化学习的区别开始讲起,探讨策略梯度思想指导下的强化学习理念的简单理解。在之前的章节:强化学习(一):简单的DQN理解中,我们已经了解到使用值函数的方法进行强化学习的本质是需要通过奖励的...

2018-04-12 16:19:53 8428 1

原创 强化学习(一):简单的DQN理解

强化学习(reinforcement learning)是一种介于监督学习和非监督学习之间的特殊任务。它并非像监督学习一样对于每一个数据都有着明确的标记信息,也不像无监督学习那样全无标记信息。强化学习有着相对稀疏的反馈标注,即奖励(Reward)。进行学习过程的代理Agent就从这些奖励中,明白自己行为的对错程度,学习如何与环境Environment互动。在目前深度学习领域长足进步的当下,将深度学...

2018-04-10 20:51:11 7485 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除