强化学习入门1—多臂老虎机Multi-armed Bandits

Multi-armed Bandits 多臂老虎机

本节主要是对sutton大神的《强化学习》这本书的相关内容,做了一些笔记,简单介绍了bandits问题的解决思路。

问题描述

多臂老虎机问题即Multi-armed Bandits。是强化学习当中非常经典的问题。

多臂老虎机源于赌博学,问题的描述是这样子的:

一个赌徒,要去赌场玩老虎机,他发现赌场里有一排老虎机,外表长得是一模一样,但是每个老虎机赢钱的概率却不一样,他不知道每个老虎机赢钱的概率分布是什么,那么对这个想要发大财的赌徒来说,每次该选择哪个老虎机才可以做到最大化奖励呢?

我们把选择哪个老虎机看成一个动作 a a a,每个动作对应一个价值 q ( a ) q(a) q(a),用该动作产生的奖励的期望来表示。那么可以把问题写成数学形式:
q ( a ) = E [ R t ∣ A t = a ] q(a)=E[R_t|A_t=a] q(a)=E[RtAt=a]
其中, A t A_t At 表示t时刻执行的动作, R t R_t Rt 表示奖励。那这个期望要如何进行估计?最简单的方法就是计算实际奖励的平均值:
Q t ( a ) = t 时 刻 前 执 行 动 作 a 得 到 的 收 益 总 和 t 时 刻 前 执 行 a 的 次 数 Q_t(a)=\dfrac{t时刻前执行动作a得到的收益总和}{t时刻前执行a的次数} Qt(a)=tata
这种估计方法也叫采样平均法。因为每一次的估计都是对相关奖励的平均。我们进一步只考虑动作 a a a,简化一下符号,假设 R i R_i Ri 表示该动作被执行 i i i 次后获得的奖励, Q n Q_n Qn 表示该动作被选择执行 n − 1 n-1 n1 次后,第 n n n 次被执行的价值的估计值,则有
Q n + 1 = 1 n ∑ i = 1 n R i = 1 n ( R n + ( n − 1 ) 1 n − 1 ∑ i = 1 n − 1 R i ) = 1 n ( R n + ( n − 1 ) Q n ) = Q n + 1 n [ R

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值