自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

LagrangeSK的博客

C++ Primer第五版阅读笔记

  • 博客(4)
  • 收藏
  • 关注

原创 强化学习系列(十):On-policy Control with Approximation

一、前言本章我们关注on-policy control 问题,这里采用参数化方法逼近action-value函数 q̂ (s,a,w)≈q(s,a)q^(s,a,w)≈q(s,a)\hat q(s,a,\mathbf w) \approx q(s,a),其中,ww\mathbf w为权重向量。在11章中会讨论off-policy方法。本章介绍了semi-gradient Sarsa算...

2018-08-24 12:32:31 2669

原创 强化学习系列(九):On-policy Prediction with Approximation

一、前言针对 on-policy prediction 问题,用function approximate 估计 state-value function的创新在于:value function 不再是表格形式,而是权重参数为w的数学表达式,即,其中 v̂ v^\hat v 可以是state的线性函数,也可以是一个多层人工神经网络(ANN),也可以是一个决策树。值得注意的是,权重ww\...

2018-08-22 10:48:24 4444 1

原创 强化学习系列(八):Planning and learning with Tabular Methods(规划和离散学习方法)

一、前言本章是对前面七章的一个总结归纳,前七章中我们首先介绍马尔科夫决策过程(MDP),而后介绍了求解环境模型已知的MDP的方法(model-based)——动态规划方法(DP),启发式搜索也属于这类方法。最后针对环境模型未知(model free)的MDP,介绍了基于学习的强化学习方法——蒙特卡罗(MC)、时间差分(TD)等。前七章重点讨论了这两类方法的区别,但这两类方法也有以下共同点:...

2018-08-15 14:14:34 5465

原创 强化学习系列(七):n-step Bootstrapping (步步为营)

一、前言在强化学习系列(五):蒙特卡罗方法(Monte Carlo)和强化学习系列(六):时间差分算法(Temporal-Difference Learning)中,我们介绍了两种用于求解环境模型未知的MDP方法:MC和TD,MC是一种每episode更新一次的方法,TD是单步更新的方法,n-step Bootstrapping (步步为营)是一种介于TD和MC之间的方法,n-step更新一次...

2018-08-02 13:21:22 9610 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除