强化学习第九章总结，总结到9.3

最新推荐文章于 2022-12-13 19:08:59 发布

Uncle_Sugar

最新推荐文章于 2022-12-13 19:08:59 发布

阅读量443

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_29278271/article/details/105647621

版权

该博客介绍了强化学习中采用函数近似来节省空间，并利用拟合器的泛化性。讨论了价值函数近似的目标、预测问题、线性方法以及在部分观测问题中的应用。提到了在线学习、局部最优、半梯度方法和线性方法的优缺点，以及状态聚合在强化学习中的潜在作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这一章采取函数近似的方法，前面有提到过，状态太多的时候会考虑把策略（存疑求证，记忆里这里应该是策略，但这章提的是v函数）函数pi表示成状态的函数，只要函数的参数比状态数要少，就能起到节省空间的作用。

简单写作 v_pi(s, w) = v_pi(s)

这里的v可以是一个关于特征的线性方程，w是特征的权重，更普遍地说，v可能是一个多层神经网络而w是每一层的权重。通过调整权重。我们可以近似一个很大范围内的的函数。这里的v也可以是一个决策树，而w是是分裂点和叶子值。一般来说，参数的数量会远远低于状态的数量，同时改变一个参数能够影响到很多很多状态的预测值。反过来说就是，我们一旦更新一个状态，这一步结果会泛化到很多状态上去。这使得这一学习既强大又难以掌控。

总结一下就是两点，

节省空间，
第二点借助拟合器的泛化性。

这里我们可以联想到之前dyna算法中，用模型拟合奖励的策略，也许也能够凭借模型的泛化能力带来一些改进。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。