Q learning参数的补充说明

最新推荐文章于 2024-05-30 09:00:17 发布

Walter_Silva

最新推荐文章于 2024-05-30 09:00:17 发布

阅读量2.9k

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gin077/article/details/82987599

版权

机器学习教程专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1、epsilon greedy 算法

Q: 如何理解 greed-epsilon 方法／如何设置 epsilon／如何理解 exploration & exploitation 权衡？
A: (1) 我们的小车一开始接触到的 state 很少，并且如果小车按照已经学到的 qtable 执行，那么小车很有可能出错或者绕圈圈。同时我们希望小车一开始能随机的走一走，接触到更多的 state。(2) 基于上述原因，我们希望小车在一开始的时候不完全按照 Q learning 的结果运行，即以一定的概率 epsilon，随机选择 action，而不是根据 maxQ 来选择 action。然后随着不断的学习，那么我会降低这个随机的概率，使用一个衰减函数来降低 epsilon。(3) 这个就解决了所谓的 exploration and exploitation 的问题，在“探索”和“执行”之间寻找一个权衡。

2、alpha 的解释

alpha 是一个权衡上一次学到结果和这一次学习结果的量，如：Q = (1-alpha)*Q_old + alpha*Q_current。
alpha 设置过低会导致机器人只在乎之前的知识，而不能积累新的 reward。一般取 0.5 来均衡以前知识及新的 reward。

3、gamma

gamma 是考虑未来奖励的因子，是一个(0,1)之间的值。一般我们取0.9，能够充分地对外来奖励进行考虑。
实际上如果你将它调小了，你会发现终点处的正奖励不能够“扩散”到周围，也就是说，机器人很有可能无法学习到一个到达终点的策略。你可以自己尝试一下。

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Q learning参数的补充说明

1、epsilon greedy 算法Q: 如何理解 greed-epsilon 方法／如何设置 epsilon／如何理解 exploration &amp; exploitation 权衡？A: (1) 我们的小车一开始接触到的 state 很少，并且如果小车按照已经学到的 qtable 执行，那么小车很有可能出错或者绕圈圈。同时我们希望小车一开始能随机的走一走，接触到更多的 state。...
复制链接

扫一扫

专栏目录

Walter_Silva CSDN认证博客专家 CSDN认证企业博客

码龄13年

72: 原创

8万+: 周排名

198万+: 总排名

8万+: 访问

: 等级

1498: 积分

18: 粉丝

31: 获赞

18: 评论

144: 收藏

私信

关注

热门文章

分类专栏

最新评论

个推教程--第一课--综述
彼方: 好文，已收藏，学习的道路上一起进步，也期待你的关注与支持！
个推教程--第一课--综述
我爱人工智能: 不错
个推教程--第一课--综述
LaoYuanPython: 点赞支持！博主辛苦了！谢谢分享！写得很用心，期待博主更多的精彩内容！最后拉个票，本人正参与博客之星评选，1月24、25日每天都可投票，敬请支持！谢谢！投票链接：[code=python] https://bss.csdn.net/m/topic/blog_star2020/detail?username=laoyuanpython [/code] 或到老猿博文首页内的置顶博文跳转！
个推教程--第一课--综述
普通网友: 都是博主辛苦创作，我来支持一下，奥利给！
个推教程--第一课--综述
普通网友: 果断进我的收藏夹了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。