2018年08月_LagrangeSK

09月 08月 07月 05月 04月 03月 02月

原创强化学习系列（十）：On-policy Control with Approximation

一、前言本章我们关注on-policy control 问题，这里采用参数化方法逼近action-value函数 q̂&amp;nbsp;(s,a,w)≈q(s,a)q^(s,a,w)≈q(s,a)\hat q(s,a,\mathbf w) \approx q(s,a)，其中，ww\mathbf w为权重向量。在11章中会讨论off-policy方法。本章介绍了semi-gradient Sarsa算...

2018-08-24 12:32:31 2669

原创强化学习系列（九）：On-policy Prediction with Approximation

一、前言针对 on-policy prediction 问题，用function approximate 估计 state-value function的创新在于：value function 不再是表格形式，而是权重参数为w的数学表达式，即，其中 v̂&amp;amp;amp;amp;amp;amp;amp;amp;nbsp;v^\hat v 可以是state的线性函数，也可以是一个多层人工神经网络（ANN），也可以是一个决策树。值得注意的是，权重ww\...

2018-08-22 10:48:24 4445 1

原创强化学习系列（八）：Planning and learning with Tabular Methods（规划和离散学习方法）

一、前言本章是对前面七章的一个总结归纳，前七章中我们首先介绍马尔科夫决策过程（MDP），而后介绍了求解环境模型已知的MDP的方法（model-based)——动态规划方法（DP)，启发式搜索也属于这类方法。最后针对环境模型未知(model free)的MDP，介绍了基于学习的强化学习方法——蒙特卡罗（MC）、时间差分（TD）等。前七章重点讨论了这两类方法的区别，但这两类方法也有以下共同点：...

2018-08-15 14:14:34 5465

原创强化学习系列（七）：n-step Bootstrapping (步步为营）

一、前言在强化学习系列（五）：蒙特卡罗方法（Monte Carlo)和强化学习系列（六）：时间差分算法（Temporal-Difference Learning)中，我们介绍了两种用于求解环境模型未知的MDP方法：MC和TD，MC是一种每episode更新一次的方法，TD是单步更新的方法，n-step Bootstrapping （步步为营）是一种介于TD和MC之间的方法，n-step更新一次...

2018-08-02 13:21:22 9617 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习系列（十）：On-policy Control with Approximation

原创 强化学习系列（九）：On-policy Prediction with Approximation

原创 强化学习系列（八）：Planning and learning with Tabular Methods（规划和离散学习方法）

原创 强化学习系列（七）：n-step Bootstrapping (步步为营）

空空如也

空空如也

原创强化学习系列（十）：On-policy Control with Approximation

原创强化学习系列（九）：On-policy Prediction with Approximation

原创强化学习系列（八）：Planning and learning with Tabular Methods（规划和离散学习方法）

原创强化学习系列（七）：n-step Bootstrapping (步步为营）