重温强化学习之函数近似

最新推荐文章于 2021-09-21 17:03:54 发布

BUPT-WT

最新推荐文章于 2021-09-21 17:03:54 发布

阅读量1.1k

点赞数 1

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41362649/article/details/85205614

版权

强化学习专栏收录该内容

17 篇文章 4 订阅

订阅专栏

1、简介

之前提到的方法目的是求值函数，通过值函数找打策略

基于表格的方法：

基于表格方法精确的描述每一个动作和状态的大小，表格大小会随着状态数量和动作数量快速膨胀，对于表格中某一项的更新不会影响到其它项的更新

强化学习能够用来解决大规模的问题，例如围棋：256像素点数幂

之前使用表格来表示值函数

在大规模MDPs中会存在需要在内存空间中存储大量的状态或动作，学习比较缓慢

解决大规模MDPs的方法，使用函数近似的方法：

从已经经历过的状态推广到未见的状态，可以使用MC或者TD更新参数W

值函数近似的类型：

第三个，输入状态可以无限，但是动作有限m，这样做的好处是算出a1,...am个Q值即可用贪婪算法找出最优动作

函数近似器：

考虑可微的函数近似器：

比如：

线性模型

神经网络

。。。

2、增量算法

梯度算法

梯度下降：

值函数近似和随机梯度下降

线性函数近似

特征向量：

线性值函数近似：

表格检索特征：

值函数近似下的增量式评价算法

增量式评价算法：前面是假设给定了真实的值函数，但是在RL环境中，并不知道真实的值函数，只有奖励值。直观地，用目标值代替值函数

值函数近似下的MC:

值函数近似下的TD

值函数近似下的TD(lambda)

值函数近似下的增量式优化算法

策略迭代：

对Q函数的近似：

线性Q函数的近似

增量式策略优化算法：

3、收敛性简介

策略评价时的收敛问题：

策略优化算法的收敛性：

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
重温强化学习之函数近似

1、简介之前提到的方法目的是求值函数，通过值函数找打策略基于表格的方法：基于表格方法精确的描述每一个动作和状态的大小，表格大小会随着状态数量和动作数量快速膨胀，对于表格中某一项的更新不会影响到其它项的更新强化学习能够用来解决大规模的问题，例如围棋：256像素点数幂之前使用表格来表示值函数在大规模M...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。