探索和利用困境

最新推荐文章于 2024-08-16 10:12:23 发布

Welosthesightof

最新推荐文章于 2024-08-16 10:12:23 发布

阅读量221

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/makerNo/article/details/119199006

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

假设有两台老虎机，简化成只需要拉杆就能玩，结果只有胜利和失败，胜利为1，失败为2。
事先并不知道每台机器的实际胜率，所以只能不断的玩来评估。一开始玩哪一台都一样，胜率都为0，假设我玩第一台，输了。第二次选择玩第二台就很合理。假设玩第二台我赢了，这个时候第一台胜率为0，第二台为100%。这个时候合理的选择是玩第二台，假如之后一直玩第二台，然后一直输，无论如何第二台的胜率都是会高于第一台0。
如果是利用，则会选择最优的策略，也就是概率最大的，也就是选择玩第二台。达到收益最大化。
如果是探索，则应该有一定几率选到第一台，由此获得更多的数据，使得实验结果更加精确。
如果纯粹使用利用。那么得到的策略可能是次优的。
纯探索可能达不到收益最大化。
解决这个问题的算法：epsilon-greedy
应用到现实，可以做推荐系统，a/b测试。
实例:1.定义bandit类，拥有实际概率，和评估概率的self.拥有一个pull方法，返回值是布尔类型。
2.创建一个循环，循环执行算法
3.绘图
special point:求mean公式,推导。numpy各个函数的作用。
问问题，问傻问题也总好过不问。

Welosthesightof

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。