强化学习入门1—多臂老虎机Multi-armed Bandits

最新推荐文章于 2024-09-11 16:54:03 发布

小菜羊~

最新推荐文章于 2024-09-11 16:54:03 发布

阅读量3.1k

点赞数 2

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sherlocksy/article/details/119424409

版权

目录

Multi-armed Bandits 多臂老虎机

Multi-armed Bandits 多臂老虎机

本节主要是对sutton大神的《强化学习》这本书的相关内容，做了一些笔记，简单介绍了bandits问题的解决思路。

问题描述

多臂老虎机问题即Multi-armed Bandits。是强化学习当中非常经典的问题。

多臂老虎机源于赌博学，问题的描述是这样子的：

一个赌徒，要去赌场玩老虎机，他发现赌场里有一排老虎机，外表长得是一模一样，但是每个老虎机赢钱的概率却不一样，他不知道每个老虎机赢钱的概率分布是什么，那么对这个想要发大财的赌徒来说，每次该选择哪个老虎机才可以做到最大化奖励呢？

我们把选择哪个老虎机看成一个动作 $a$ ，每个动作对应一个价值 $q (a)$ ，用该动作产生的奖励的期望来表示。那么可以把问题写成数学形式：
$q(a)=E[R_t|A_t=a]$
其中， $A_t$ 表示t时刻执行的动作， $R_t$ 表示奖励。那这个期望要如何进行估计？最简单的方法就是计算实际奖励的平均值：
$Q_t(a)=\dfrac{t时刻前执行动作a得到的收益总和}{t时刻前执行a的次数}$
这种估计方法也叫采样平均法。因为每一次的估计都是对相关奖励的平均。我们进一步只考虑动作 $a$ ，简化一下符号，假设 $R_i$ 表示该动作被执行 $i$ 次后获得的奖励， $Q_n$ 表示该动作被选择执行 $n - 1$ 次后，第 $n$ 次被执行的价值的估计值，则有

最低0.47元/天解锁文章

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。