文章目录
E&E问题系列总结
EE(Exploitation & Exploration) 问题在计算广告/推荐系统中非常常见,甚至在更广义的范围上,任意决策问题都会牵涉到 EE 问题。简单来说,这个问题就是要解决的是在决策时到底是根据已有经验选择最优的策略(Exploitation),还是去探索一些新的策略来提升未来的收益(Exploration)。本文主要介绍解决这个问题的三种比较常见的方法:随机方法,UCB 方法,Thompson sampling 方法,侧重于方法的具体流程和基本思想
MAB 建模
EE 问题一般会通过 MAB(Multi-Armed Bandit) 进行建模, 如下所示,所有 arm 就是每次决策中可作出的选择,拉下某个 arm 表示作出了相应的选择
MAB 符号化表述如下
- MAB 可表示为一个二元组 <A,R>
- A 表示为一系列可能的动作, R(r|a) 则表示给定动作下的奖赏的分布,
- 每一时刻根据给定策略从 A 选择动作 at, 同时环境根据分布 R(r|a) 生成奖赏 rt
- 目标是最大化奖赏之和