- 博客(4)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 [强化学习-2] DP-值估计和策略控制
上一篇博客讲了强化学习中的几个基本概念,其中推导的贝尔曼方程是一个很重要的部分。在上一篇博客里也说过MRP里的贝尔曼方程可以通过求解矩阵直接得到收敛后的state-value function,但是计算复杂度高,我们这节采用动态规划的方式求解预测问题定义:MRP或者给定策略π的MDP,求出状态价值函数v(s)/vπ(s)v(s)/vπ(s)v(s)/v_\pi(s) 例子:出...
2018-08-22 15:15:35 1566
原创 [强化学习-1] MP、MRP、MDP和Bellman equation
最近又开始重新学习强化学习了,记录一下历程MP(马尔科夫过程)定义:S是有限状态集合,P是状态转移概率矩阵 例子: 我们将一次有限步数的实验称作一个单独的episode 1. C1 C2 Pass Sleep 2. C1 FB FBMRP(马尔科夫奖励过程)定义:比MP多了个reward,只要达到某个状态会获得相应奖励R,γ是折扣因子,一个episode中越...
2018-08-21 17:39:48 6369
Android内核编译后刷入手机启动不了
2015-10-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人