自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

suai9292的博客

Turing1996 CSDN认证博客专家 CSDN认证企业博客

码龄13年

2: 原创

55万+: 周排名

74万+: 总排名

1万+: 访问

: 等级

191: 积分

10: 粉丝

11: 获赞

2: 评论

63: 收藏

私信

关注

分类专栏

强化学习 2篇
policy gradient 1篇

最新评论

强化学习(一)：简单的DQN理解
heellozyx: 这个几经理解了，但是再看有些地方没讲清楚
强化学习（二）：Policy Gradient理解
heellozyx: 这种理解性的文章讲得真好。比那些就知道套公式的好多了

最新文章

policy gradient

关注

关注数：文章数：1 文章阅读量：8431 文章收藏量：38

作者: Turing1996

时而抽风的认真读博

展开

强化学习（二）：Policy Gradient理解

上一章已经介绍了基于值函数方法的简单的DQN的理解，而在深度强化学习领域另一种基于端到端思路的策略梯度（Policy Gradient）算法相较而言可能取得更好的结果，也更加方便理解。于是，本章我们就从有监督学习和强化学习的区别开始讲起，探讨策略梯度思想指导下的强化学习理念的简单理解。在之前的章节：强化学习(一)：简单的DQN理解中，我们已经了解到使用值函数的方法进行强化学习的本质是需要通过奖励的...

原创 2018-04-12 16:19:53 · 8431 阅读 · 1 评论