2 K 摇臂赌博机(探索与利用贪心法 softmax）（周志华）

komorebi6

于 2020-03-20 20:10:08 发布

阅读量2.2k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/komorebi6/article/details/104964866

版权

文章目录

探索与利用
- 仅探索
- 仅利用
ϵ贪心法
softmax

探索与利用

单步强化学习任务对应理论模型—K-摇臂赌博机：k个摇臂，赌徒在投入一个硬币后选择按下其中一个摇臂，每个摇臂以一定的概率（未知）吐出硬币，通过一定策略最大化

最大化单步奖赏，即仅考虑一步操作。
欲最大化单步奖赏考虑两个方面：一是需要知道每个动作带来的奖赏；二要执行奖赏最大的动作。（通常一个动作的奖赏值是来自于一个概率分布，仅通过一次尝试并不能确切地获得平均奖赏值）。

仅探索

将所有的尝试机会平均分配给每个摇臂（轮流按下），最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计

很好估计每个摇臂的奖赏，却会失去很多选择最优摇臂的机会

仅利用

仅利用即仅为执行奖赏最大动作
按下目前最优的摇臂（到目前为止平均奖赏最大的），若多个摇臂相同为最优，则随机选一个

不能很好估计摇臂期望奖赏，很可能经常选不到最优摇臂

ϵ贪心法

两种方法都很难使最终的累计奖赏最大化。探索（估计摇臂的优劣）和利用(选择当前最优摇臂)两者矛盾
贪心法基于一个概率来对探索和利用进行这种：每次尝试是，以ϵ的概率探索，即以均匀概率随机选择一个摇臂；以1-ϵ的概率进行利用，即选择当前平均奖赏最高的摇臂（若多个则随机选一个）

在这里插入图片描述
Q（k）为摇臂k的平均奖赏，k被尝试n次，得到奖赏v1，v2…则平均奖赏为上
更搞笑的做法对均值进行增量计算，即每尝试一次就立即更新Q（k）.用下标来表示尝试的次数，初始Qo(k)=0.即

在这里插入图片描述无论摇臂被超市多少次都仅需记录两个值：已尝试次数n-1和平均奖赏Qn-1(k)
ϵ贪心法算法描述

softmax

Softmax算法基于当前每个动作的平均奖赏值来对探索和利用进行折中，Softmax函数将一组值转化为一组概率，值越大对应的概率也越高，因此当前平均奖赏值越高的动作被选中的几率也越大。

在这里插入图片描述
t>0称为温度，t越小则平均奖赏高的摇臂被选择几率越高，t趋向于0时softmax趋于仅利用，趋向无穷大时softmax趋向于仅探索.

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
2 K 摇臂赌博机(探索与利用贪心法 softmax）（周志华）

探索与利用单步强化学习任务对应理论模型—K - 摇臂赌博机：k个摇臂，赌徒在投入一个硬币后选择按下其中一个摇臂，每个摇臂以一定的概率（未知）吐出硬币，通过一定策略最大化最大化单步奖赏，即仅考虑一步操作。欲最大化单步奖赏考虑两个方面：一是需要知道每个动作带来的奖赏；二要执行奖赏最大的动作。（通常一个动作的奖赏值是来自于一个概率分布，仅通过一次尝试并不能确切地获得平均奖赏值）。...
复制链接

扫一扫

komorebi6 CSDN认证博客专家 CSDN认证企业博客

码龄5年

30: 原创

43万+: 周排名

221万+: 总排名

1万+: 访问

: 等级

448: 积分

6: 粉丝

26: 获赞

9: 评论

44: 收藏

私信

关注

热门文章

分类专栏

软件测试 2篇
PyTorch 4篇

最新评论

Linux
komorebi6: https://www.processon.com/diagraming/667cb6f4edfa9402e9e98c9f
Policy Gradients（Tensorflow）
komorebi6 回复 BBJG_001: 啊~
Policy Gradients（Tensorflow）
bbjg_001: 坐等大佬更新
Policy Gradients（Tensorflow）
komorebi6 回复 BBJG_001: 大佬还没转成torch的
Policy Gradients（Tensorflow）
BBJG_001: 大佬能分享下源码么

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。