强化学习
爆米花好美啊
个人网站: renguanghui.com
展开
-
[强化学习-2] DP-值估计和策略控制
上一篇博客讲了强化学习中的几个基本概念,其中推导的贝尔曼方程是一个很重要的部分。在上一篇博客里也说过MRP里的贝尔曼方程可以通过求解矩阵直接得到收敛后的state-value function,但是计算复杂度高,我们这节采用动态规划的方式求解预测问题定义:MRP或者给定策略π的MDP,求出状态价值函数v(s)/vπ(s)v(s)/vπ(s)v(s)/v_\pi(s) 例子:出...原创 2018-08-22 15:15:35 · 1587 阅读 · 0 评论 -
[强化学习-4] 蒙特卡洛和时序差分法-控制
蒙特卡洛原创 2018-08-31 16:47:04 · 1772 阅读 · 0 评论 -
[强化学习-1] MP、MRP、MDP和Bellman equation
最近又开始重新学习强化学习了,记录一下历程MP(马尔科夫过程)定义:S是有限状态集合,P是状态转移概率矩阵 例子: 我们将一次有限步数的实验称作一个单独的episode 1. C1 C2 Pass Sleep 2. C1 FB FBMRP(马尔科夫奖励过程)定义:比MP多了个reward,只要达到某个状态会获得相应奖励R,γ是折扣因子,一个episode中越...原创 2018-08-21 17:39:48 · 6410 阅读 · 0 评论 -
[强化学习-3] 蒙特卡洛和时序差分法-预测
上一次我们在讲解值函数估计时用了DP,这次采用蒙特卡洛和时序差分原创 2018-08-29 19:57:34 · 1948 阅读 · 0 评论 -
[强化学习-5] 值函数近似
前几篇博客讲了如何进行值函数估计,估计完之后这些结果怎么保持呢,状态动作空间很小的就存在表中,用的时候查表获取v(s)和Q(s, a),但当状态空间是高维连续时,需要储存的东西就太多了,这个表就不行了,这时我们会采用函数逼近(function approximation)的方式逼近值函数: 一般的函数逼近有Linear combinations of features(可微) N...原创 2018-09-01 14:44:46 · 3494 阅读 · 0 评论 -
[强化学习-6] 策略梯度
强化学习的目标是学习一个策略来获得最大的累计奖励,之前的几篇博客是value-based的方法,即先估计状态价值V(s)或者状态动作价值Q(s, a),然后根据这些估值得到策略,而本文要讲一下policy-based的方法。Policy-based 简介value based中,有了Q值后就可以根据epsilon greedy进行策略选择,但是这有个问题就是说这个策略是确定性策...原创 2018-09-04 18:52:12 · 3310 阅读 · 0 评论 -
[强化学习-7] 模型和规划(model and planning)
之前的博客都在讲从之前的experience中学习policy或者value function,这一篇博客讲解从之前的experience中学习model何为model一句话总结就是状态转移概率和奖励Learning a model状态转移概率s, a → s‘可以看作是一个density estimation问题,而奖励s, a → r可以看做是regress...原创 2018-09-07 11:40:48 · 1020 阅读 · 0 评论