4. 强化学习之——值函数近似

最新推荐文章于 2023-03-28 08:36:13 发布

TheWindOfJune

最新推荐文章于 2023-03-28 08:36:13 发布

阅读量2.4k

点赞数 4

分类专栏：强化学习文章标签：强化学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43450646/article/details/106681891

版权

课程纲要

值函数近似简介

值函数近似用于prediction【给定策略函数给定它的价值】

值函数近似用于control

DQN简介

为什么要有值函数近似

之前的课程提到的 RL 问题：像 Cliff Walk 等，都只有几千或者几百种状态，可以用 V值的向量或者 Q-Table 的方式表达出来

而其它大规模的 MDP 问题：像 Go【10**170】等状态空间十分十分巨大，宇宙中的原子数量也只有 10**80 那么多，那么我们就没有那么大的存储空间，而且状态太多了学习起来很慢很慢

在这种大规模的强化学习问题中，如何去估计价值函数是个困难的问题，怎样把model-free的方法用上去

因此在面对大规模 MDP 问题时，要避免用 table 去表征，而是采用带参数的函数近似的方式去近似估计 V Q π：

好处是 ——（1）可以泛化到我们没见过的状态（2）可以用 MC 或者 TD 方法 update 那个 w 参数

不同的函数设计方式思路：

函数近似方法用于 prediction

线性近似；神经网络；决策树；最近邻；

我们更关注于可微分的第一个线性方法和第二个神经网络方法

复习梯度下降方法：

最低0.47元/天解锁文章

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
4. 强化学习之——值函数近似

课程纲要值函数近似简介值函数近似用于prediction【给定策略函数给定它的价值】值函数近似用于controlDQN简介为什么要有值函数近似之前的课程提到的 RL 问题：像 Cliff Walk 等，都只有几千或者几百种状态，可以用 V值的向量或者Q-Table 的方式表达出来而其它大规模的 MDP 问题：像 Go【10**170】等状态空间十分十分巨大，宇宙中的原子数量也只有 10**80 那么多，那么我们就没有那么大的存储空间，而且状态太多了学习起来很慢很慢在这种大.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。