Exploration vs Exploitation （Multi-arm Bandit Problem）

最新推荐文章于 2024-06-06 00:54:04 发布

No Knownledge

最新推荐文章于 2024-06-06 00:54:04 发布

阅读量160

点赞数

分类专栏： Reinforcement Learning 文章标签： java 服务器 javascript

原文链接：https://yishuai.github.io/bigalgo/

版权

Reinforcement Learning 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Objective: "探索未知" vs "利用已知"

1. Greedy 算法

Scenario: 假设存在2个Arm(i.e., arm1赢的概率是0.3; arm2赢的概率是0.7);

用户1刚开始玩，玩arm1赢，玩Arm2输；然后就盯着arm1玩

Problem: 探索不足，仅仅探索一次，就主观上觉得发现了armi的属性，最后的结果可想而知不理想.

本质:决策制定中的经典问题，如何平衡exploration 和exploitation.

2. Epsilon Greedy 算法

随着时间的t增长, 设 $\varepsilon _{t}$ = o(1/t) (i.e., $\varepsilon$ 是探索概率，与时间成反比), 以概率 $\varepsilon _{t}$ ，在所有的arm里均匀随机尝试(Exploration)，以概率1- $\varepsilon _{t}$ , 选已发现的赢率最大的arm(Exploitation).

Problem: (1) 不优雅,刚性地区分探索未知和利用已知; (2) 不最优, 探索未知时,均匀挑选一个arm

Improvement: 探索未知时，学会利用已知.

3. UCB(Upper Confidence Bound) 算法

Scenario: (1) arm1: 1 0 0 1 1 0 0 1 0 1

(2) arm2: 1

(3) arm3: 1 1 0 1 1 1 0 1 1 1

平均赢率：arm1: 5/10; arm2: 1; arm3: 8/10

Question: 如何选择arm? (不仅看平均赢率，还要看赢率置信度Confidence)

置信区间

定义： 一个范围，均值会以一定的概率落到这个范围内(i.g., 均值会以0.95的概率,落到[0.2,0.5]内).

实验次数少,置信区间大(不可靠); 实验次数增加,置信区间变窄(估计越来越准确).

基于置信度的选择

"探索未知" vs "利用已知"两者合二为一,选择置信区间上界最大的arm.

乐观策略: 相信其上限

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。