2018年08月_爆米花好美啊

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 [强化学习-4] 蒙特卡洛和时序差分法-控制

蒙特卡洛

2018-08-31 16:47:04 1764

原创 [强化学习-3] 蒙特卡洛和时序差分法-预测

上一次我们在讲解值函数估计时用了DP，这次采用蒙特卡洛和时序差分

2018-08-29 19:57:34 1941

原创 [强化学习-2] DP-值估计和策略控制

上一篇博客讲了强化学习中的几个基本概念，其中推导的贝尔曼方程是一个很重要的部分。在上一篇博客里也说过MRP里的贝尔曼方程可以通过求解矩阵直接得到收敛后的state-value function，但是计算复杂度高，我们这节采用动态规划的方式求解预测问题定义：MRP或者给定策略π的MDP，求出状态价值函数v(s)/vπ(s)v(s)/vπ(s)v(s)/v_\pi(s) 例子：出...

2018-08-22 15:15:35 1566

原创 [强化学习-1] MP、MRP、MDP和Bellman equation

最近又开始重新学习强化学习了，记录一下历程MP(马尔科夫过程)定义：S是有限状态集合，P是状态转移概率矩阵例子：我们将一次有限步数的实验称作一个单独的episode 1. C1 C2 Pass Sleep 2. C1 FB FBMRP(马尔科夫奖励过程)定义：比MP多了个reward，只要达到某个状态会获得相应奖励R，γ是折扣因子，一个episode中越...

2018-08-21 17:39:48 6369

ajax用户名验证

2013-12-01

Android内核编译后刷入手机启动不了

2015-10-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人