增量式强化学习

最新推荐文章于 2024-04-18 09:54:38 发布

weixin_30633405

最新推荐文章于 2024-04-18 09:54:38 发布

阅读量655

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/imagef/p/7434995.html

版权

线性逼近：

相比较于非线性逼近，线性逼近的好处是只有一个最优值，因此可以收敛到全局最优。其中为状态s处的特征函数，或者称为基函数。

常用的基函数的类型为：

增量式方法参数更新过程随机性比较大，尽管计算简单，但样本数据的利用效率并不高。而批的方法，尽管计算复杂，但计算效率高。

批处理方法：

深度强化学习：

Q-learning方法是异策略时序差分方法。其伪代码为：

离策略：是指行动策略（产生数据的策略）和要评估的策略不是一个策略。在图Q-learning 伪代码中，行动策略（产生数据的策略）是第5行的\varepsilon -greedy策略，而要评估和改进的策略是第6行的贪婪策略（每个状态取值函数最大的那个动作）。

所谓时间差分方法，是指利用时间差分目标来更新当前行为值函数。在图1.1 Q-learning伪代码中，时间差分目标为。

转载于:https://www.cnblogs.com/imagef/p/7434995.html

weixin_30633405

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
增量式强化学习

线性逼近：相比较于非线性逼近，线性逼近的好处是只有一个最优值，因此可以收敛到全局最优。其中为状态s处的特征函数，或者称为基函数。常用的基函数的类型为：增量式方法参数更新过程随机性比较大，尽管计算简单，但样本数据的利用效率并不高。而批的方法，尽管计算复杂，但计算效率高。批处理方法：深度强化学习：Q-learning方法是异策略时序差分方...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。