- 博客(4)
- 收藏
- 关注
原创 强化学习系列(十):On-policy Control with Approximation
一、前言本章我们关注on-policy control 问题,这里采用参数化方法逼近action-value函数 q̂ (s,a,w)≈q(s,a)q^(s,a,w)≈q(s,a)\hat q(s,a,\mathbf w) \approx q(s,a),其中,ww\mathbf w为权重向量。在11章中会讨论off-policy方法。本章介绍了semi-gradient Sarsa算...
2018-08-24 12:32:31 2669
原创 强化学习系列(九):On-policy Prediction with Approximation
一、前言针对 on-policy prediction 问题,用function approximate 估计 state-value function的创新在于:value function 不再是表格形式,而是权重参数为w的数学表达式,即,其中 v̂ v^\hat v 可以是state的线性函数,也可以是一个多层人工神经网络(ANN),也可以是一个决策树。值得注意的是,权重ww\...
2018-08-22 10:48:24 4445 1
原创 强化学习系列(八):Planning and learning with Tabular Methods(规划和离散学习方法)
一、前言本章是对前面七章的一个总结归纳,前七章中我们首先介绍马尔科夫决策过程(MDP),而后介绍了求解环境模型已知的MDP的方法(model-based)——动态规划方法(DP),启发式搜索也属于这类方法。最后针对环境模型未知(model free)的MDP,介绍了基于学习的强化学习方法——蒙特卡罗(MC)、时间差分(TD)等。前七章重点讨论了这两类方法的区别,但这两类方法也有以下共同点:...
2018-08-15 14:14:34 5465
原创 强化学习系列(七):n-step Bootstrapping (步步为营)
一、前言在强化学习系列(五):蒙特卡罗方法(Monte Carlo)和强化学习系列(六):时间差分算法(Temporal-Difference Learning)中,我们介绍了两种用于求解环境模型未知的MDP方法:MC和TD,MC是一种每episode更新一次的方法,TD是单步更新的方法,n-step Bootstrapping (步步为营)是一种介于TD和MC之间的方法,n-step更新一次...
2018-08-02 13:21:22 9617 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人