2 K 摇臂赌博机(探索与利用 贪心法 softmax)(周志华)

探索与利用

单步强化学习任务对应理论模型—K-摇臂赌博机:k个摇臂,赌徒在投入一个硬币后选择按下其中一个摇臂,每个摇臂以一定的概率(未知)吐出硬币,通过一定策略最大化

  • 最大化单步奖赏,即仅考虑一步操作。
  • 欲最大化单步奖赏考虑两个方面:一是需要知道每个动作带来的奖赏;二要执行奖赏最大的动作。(通常一个动作的奖赏值是来自于一个概率分布,仅通过一次尝试并不能确切地获得平均奖赏值)。

仅探索

将所有的尝试机会平均分配给每个摇臂(轮流按下),最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计

  • 很好估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会

仅利用

仅利用即仅为执行奖赏最大动作
按下目前最优的摇臂(到目前为止平均奖赏最大的),若多个摇臂相同为最优,则随机选一个

  • 不能很好估计摇臂期望奖赏,很可能经常选不到最优摇臂

ϵ贪心法

两种方法都很难使最终的累计奖赏最大化。探索(估计摇臂的优劣)和利用(选择当前最优摇臂)两者矛盾
贪心法基于一个概率来对探索和利用进行这种:每次尝试是,以ϵ的概率探索,即以均匀概率随机选择一个摇臂;以1-ϵ的概率进行利用,即选择当前平均奖赏最高的摇臂(若多个则随机选一个)

在这里插入图片描述
Q(k)为摇臂k的平均奖赏,k被尝试n次,得到奖赏v1,v2…则平均奖赏为上
更搞笑的做法对均值进行增量计算,即每尝试一次就立即更新Q(k).用下标来表示尝试的次数,初始Qo(k)=0.即

在这里插入图片描述无论摇臂被超市多少次都仅需记录两个值:已尝试次数n-1和平均奖赏Qn-1(k)
ϵ贪心法算法描述
在这里插入图片描述

softmax

Softmax算法基于当前每个动作的平均奖赏值来对探索和利用进行折中,Softmax函数将一组值转化为一组概率,值越大对应的概率也越高,因此当前平均奖赏值越高的动作被选中的几率也越大。

在这里插入图片描述
t>0称为温度,t越小则平均奖赏高的摇臂被选择几率越高,t趋向于0时softmax趋于仅利用,趋向无穷大时softmax趋向于仅探索.
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值