自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 强化学习(二):Policy Gradient理解

上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解。于是,本章我们就从有监督学习和强化学习的区别开始讲起,探讨策略梯度思想指导下的强化学习理念的简单理解。在之前的章节...

2018-04-12 16:19:53

阅读数 4316

评论数 1

原创 强化学习(一):简单的DQN理解

强化学习(reinforcement learning)是一种介于监督学习和非监督学习之间的特殊任务。它并非像监督学习一样对于每一个数据都有着明确的标记信息,也不像无监督学习那样全无标记信息。强化学习有着相对稀疏的反馈标注,即奖励(Reward)。进行学习过程的代理Agent就从这些奖励中,明白自...

2018-04-10 20:51:11

阅读数 1903

评论数 1

提示
确定要删除当前文章?
取消 删除