RLAI：A k-armed Bandit Problem

最新推荐文章于 2024-07-25 22:16:54 发布

LeoKgx

最新推荐文章于 2024-07-25 22:16:54 发布

阅读量168

点赞数 3

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_69951061/article/details/138861692

版权

k个action选择，对应k个reward分布或者value分布，初始并不知道哪个哪个value高，但可以有estimated value。由此你至少能够选择在当前情况下estimated value最大的action（greedy action），这时我们说你在exploit现有的知识，相反，如果你选择了另外的动作，我们说你在explore。如何平衡exploit和explore是强化学习的独特挑战。

ε-greedy methods：大部分时间内贪婪地选择动作，ε的小概率时间独立于动作值分布随机选择动作。优点让每个动作都采样无数次，从而确保所有Q收敛到q。

采用增量式更新估值，减少复杂度：

由此得到：

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RLAI：A k-armed Bandit Problem

Reinforcement Learning:An Introduction
复制链接

扫一扫

LeoKgx CSDN认证博客专家 CSDN认证企业博客

码龄2年

14: 原创

122万+: 周排名

11万+: 总排名

1万+: 访问

: 等级

177: 积分

3: 粉丝

24: 获赞

8: 评论

60: 收藏

私信

关注

热门文章

最新评论

RLAI：A k-armed Bandit Problem
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
C语言字符数组中字符串的大小及“\0”问题
阿伍.: 我就纳闷头文件没引入你这个结果砸出来的
苏小红C语言程序设计-习题7
2301_81985934: 任务一回答正确要出新题，不是回答正确就退出
MIT-Missing-Semester：Course overview + the shell
CSDN-Ada助手: 非常棒的博客！恭喜你完成了第13篇文章，标题和内容都很吸引人。持续创作是一项了不起的成就，你已经展示了很好的写作能力和知识传递技巧。对于下一步的创作建议，我想提醒你在文章中加入更多实例和案例分析，这样读者能更好地理解和应用你所分享的内容。期待你的下一篇博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。