强化学习笔记(三)Value Function Approximation

目录

学习考察

 引言

1、值函数近似(VFA)

 2、什么是oracle?

如果没有oracle,我们如何优化价值拟合函数呢?

3、蒙特卡洛值函数近似(MC-VFA)

 4、时序差分函数近似(TD-VFA)

5、VFA控制策略

6、总结

控制算法收敛性的总结


学习考察

首先,基于之前学习笔记的内容,再次复习一下SARSA、Q-learnign、TD算法,详看下面的考题和答案。 

 

 引言

之前,我们假设可以以向量或者矩阵的形式来表示值函数或者状态-动作值函数,但是现实世界

今天的内容主要涉及这几个方面:

  • Value function approximation
  • Monte Carlo policy evaluation with linear function approximation
  • TD policy evaluation with linear function approximation
  • Control methods with linear value function approximation

1、值函数近似(VFA)

我们采取函数近似的方法来估计给定策略的状态价值函数或动作价值函数。要评估状态价值,我们可以用一个参数为w的v函数来近似状态价值,要评估动作价值,我们可以用一个参数为w的q函数来近似动作价值。参数为w的v函数/参数为w的q函数的形式需要事先给定,并且在学习过程中只更新参数w,一旦参数w完全确定,那么价值估计就完全给定。所以,重点在于如何更新参数w,更新参数的方法既可以用于策略价值估计,也可用于最优策略求解。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值