自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Sundrops的专栏

deep learning

  • 博客(4)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 [强化学习-4] 蒙特卡洛和时序差分法-控制

蒙特卡洛

2018-08-31 16:47:04 1764

原创 [强化学习-3] 蒙特卡洛和时序差分法-预测

上一次我们在讲解值函数估计时用了DP,这次采用蒙特卡洛和时序差分

2018-08-29 19:57:34 1941

原创 [强化学习-2] DP-值估计和策略控制

上一篇博客讲了强化学习中的几个基本概念,其中推导的贝尔曼方程是一个很重要的部分。在上一篇博客里也说过MRP里的贝尔曼方程可以通过求解矩阵直接得到收敛后的state-value function,但是计算复杂度高,我们这节采用动态规划的方式求解预测问题定义:MRP或者给定策略π的MDP,求出状态价值函数v(s)/vπ(s)v(s)/vπ(s)v(s)/v_\pi(s) 例子:出...

2018-08-22 15:15:35 1566

原创 [强化学习-1] MP、MRP、MDP和Bellman equation

最近又开始重新学习强化学习了,记录一下历程MP(马尔科夫过程)定义:S是有限状态集合,P是状态转移概率矩阵 例子: 我们将一次有限步数的实验称作一个单独的episode 1. C1 C2 Pass Sleep 2. C1 FB FBMRP(马尔科夫奖励过程)定义:比MP多了个reward,只要达到某个状态会获得相应奖励R,γ是折扣因子,一个episode中越...

2018-08-21 17:39:48 6369

ajax用户名验证

ajax用户名验证

2013-12-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除