强化学习-K摇臂赌博机

最新推荐文章于 2022-02-03 09:55:31 发布

weixin_30292843

最新推荐文章于 2022-02-03 09:55:31 发布

阅读量191

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/CynthiaWendy/p/11052340.html

版权

　　在强化学习任务中，学习的目的就是找到能够长期累积奖赏最大化的策略。这里的策略实际上就相当于监督学习中的分类器或回归器，模型的形式并无差别。但不同的是，在强化学习中并没有监督学习中的有标记样本，换言之，没有人直接告诉机器在什么动作，只有等到最终结果揭晓，才能通过“反思”之前的动作是否正确来进行学习。因此，强化学习在某种意义上可看做具有“延迟标记信息”的监督学习问题。

　　实际上，单步强化学习任务对应了一个理论模型---K-摇臂赌博机。

　　有K个摇臂，赌徒在投入一个硬币后可选择按下其中一个摇臂，每个摇臂以一定的概率吐出硬币，但这个概率赌徒并不知道，赌徒的目标是通过一定的策略最大化自己的奖赏，即获得的最多的硬币。

　　1. 若仅为获知每个摇臂的期望奖赏，则可采用“仅探索”法：将所有的尝试机会平均分配给每个摇臂（即轮流按下每个摇臂），最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。

　　2. 若仅为执行奖赏最大得到动作，则可采用“仅利用”法：按下目前最优的（即到目前为止平均奖赏最大的）摇臂，若有多个摇臂同为最优，则从中随机选取一个。

　　　　显然，“仅探索”法能很好地估计每个摇臂的奖赏，却会失去很多选择最优摇臂的机会；“仅利用”法则相反，它没有很好地估计摇臂期望奖赏，很可能经常选不到最优摇臂。因此，这两种方法都难以使最终的累积奖赏最大化。

　　所以，欲积累奖赏最大，则必须在“探索”和“利用”之间达成较好的折中。相应的策略有：

　　1. ε-贪心：基于一个概率来对探索和利用进行折中，每次尝试时，以ε的概率进行探索，即以均匀概率随机选取一个摇臂；以1-ε的概率进行利用，即选择当前平均奖赏最高的摇臂。

　　2. Softmax算法：基于当前已知的摇臂平均奖赏来对探索和利用进行折中。所各摇臂的平均奖赏相当，则选取个摇臂的概率也相当；若某些摇臂的平均奖赏明显高于其他摇臂，则它们被选取的概率也明显更高。

转载于:https://www.cnblogs.com/CynthiaWendy/p/11052340.html

weixin_30292843

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习-K摇臂赌博机

　　在强化学习任务中，学习的目的就是找到能够长期累积奖赏最大化的策略。这里的策略实际上就相当于监督学习中的分类器或回归器，模型的形式并无差别。但不同的是，在强化学习中并没有监督学习中的有标记样本，换言之，没有人直接告诉机器在什么动作，只有等到最终结果揭晓，才能通过“反思”之前的动作是否正确来进行学习。因此，强化学习在某种意义上可看做具有“延迟标记信息”的监督学习问题。　　实际上，单步强化学习任...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。