马尔科夫决策过程
老虎福
这个作者很懒,什么都没留下…
展开
-
强化学习笔记(2)之马尔科夫决策过程
标签(空格分隔): 人工智能 强化学习文章目录马尔科夫性质马尔科夫过程状态转移矩阵马尔科夫奖励过程MRP马尔科夫决策过程的示例折扣系数长期回报立即回报函数R值函数状态值函数状态-行为值函数贝尔曼(Bellman)方程马尔科夫性质马尔科夫性质:系统的下一个状态只与当前状态有关,与以前状态无关。定义:一个状态StS_tSt是马尔科夫性质的,当且仅当:P(St+1∣St)=P(St+1∣...原创 2019-03-08 00:47:47 · 678 阅读 · 1 评论 -
强化学习笔记(3)之动态规划法
价值函数的解析解上一篇文章的马尔科夫过程是强化的学习的理论基础,其中引入了状态价值函数与状态-行为价值函数来对行为策略的评估。补充一下上一篇文章的知识。最优状态价值函数:即在当前状态下,可能发生的所有后续动作,挑选最好的动作来执行的情况下,当前这个状态的价值。最优状态行为值函数:即在当前状态下执行了特定的行为,然后考虑到执行这个行为后所有可能所处的后续状态并且在这些状态下总是挑选最好的动作来执...原创 2019-03-21 23:17:40 · 506 阅读 · 0 评论 -
强化学习笔记(4)之蒙特卡洛法
强化学习笔记(4)之蒙特卡洛法标签(空格分隔): 未分类文章目录强化学习笔记(4)之蒙特卡洛法起源蒙特卡洛法与动态规划法在强化学习中的区别首次访问与每次访问增量计算均值强化学习中的探索同策略(on-policy)异策略(off-policy)起源蒙特卡洛法是一种统计随机数来解决计算问题的一种方法,即以概率为基础的方法,名字起源于著名赌城蒙特卡洛。如下图所示,圆周率的计算,还有不规则图形面...原创 2019-03-29 22:59:08 · 1447 阅读 · 0 评论 -
强化学习笔记(5)之时序差分法
强化学习笔记(5):时序差分法求值函数标签(空格分隔): 未分类文章目录强化学习笔记(5):时序差分法求值函数时序差分法与动态规划法和蒙特卡洛法的区别TD方法的反演同策略的时序差分法:SARSASARSA的收敛性SARSA($\lambda$)时序差分法与动态规划法和蒙特卡洛法的区别动态规划法(DP): 需要状态模型,即状态转移矩阵Pss′aP_{ss'}^aPss′a...原创 2019-06-03 22:28:48 · 2407 阅读 · 0 评论