4. 强化学习之——值函数近似

课程纲要

值函数近似简介

值函数近似用于prediction【给定策略函数给定它的价值】

值函数近似用于control

DQN简介

为什么要有值函数近似

之前的课程提到的 RL 问题:像 Cliff Walk 等,都只有几千或者几百种状态,可以用 V值的向量或者 Q-Table 的方式表达出来

而其它大规模的 MDP 问题:像 Go【10**170】 等状态空间十分十分巨大,宇宙中的原子数量也只有 10**80 那么多,那么我们就没有那么大的存储空间,而且状态太多了学习起来很慢很慢

在这种大规模的强化学习问题中,如何去估计价值函数是个困难的问题,怎样把model-free的方法用上去

因此在面对大规模 MDP 问题时,要避免用 table 去表征,而是采用带参数的函数近似的方式去近似估计 V Q π:

好处是 ——(1)可以泛化到我们没见过的状态(2)可以用 MC 或者 TD 方法 update 那个 w 参数

不同的函数设计方式思路:

函数近似方法用于 prediction

线性近似;神经网络;决策树;最近邻;

我们更关注于可微分的第一个线性方法和第二个神经网络方法

复习梯度下降方法:

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值