背景介绍
匹诺康尼的老虎机
多臂强盗算法(Multi-Armed Bandit)有时又被称作多臂老虎机算法。名字来源于赌场中的老虎机。是一个强化学习领域的研究问题。赌场中通常有这么两种人,一种是好赌成瘾的瘾君子,我们浅叫他xqc,另一种是真正把把赢的赌怪,我们叫他土块。多臂老虎机算法的目的就是每次都能拉中老虎机回报最多的拉杆,使xqc变成土块。
定义
多臂老虎机是一个在n轮里learner和environment交互的顺序游戏。learner每一次拉动k个臂的老虎机的臂被称作一个action,而每轮action∈At,活动的集合。每一次action会得到未知分布的reward ,reward ∈ Xt,奖励的集合。
目的
就是为了使xqc变成土块。也就是把把都能拉动带来最大回报的臂,使累积的财富最多。换成数学表述就是我们要
maxmize /sigma t:1->n Xt
等价的,我们定义后悔Regret,为期望最大的值与真实值的差值,所以问题同样可以转换为
最小化Regret。而regret等于
MAX-/sigma t:1