多臂老虎机问题

强化学习的基础概念

多臂老虎机是一个常见的强化学习问题,所以我们首先给出强化学习的一些基础概念:

强化学习不仅需要学习做什么,也需要学习如何根据与环境的交互采取相应的行动。强化学习的最终结果,就是要实现系统回报信号的最大化。学习者事先并不知道要去执行什么行为,需要自己去发现哪种行动能产生最大的回报。

在强化学习中,有两个可以进行交互的对象:智能体和环境。

  • 智能体(agent)可以感知外界环境的状态(state)和反馈的奖励(reward),并进行学习和决策。
  • 智能体的决策功能是指根据外界环境的状态来做出不同的动作(action), 而学习功能是指根据外界环境的奖励来调整策略。
  • 环境(environment)是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励。

Exploration-Exploitation tradeoff

Exploration:探索。这是指在强化学习过程中,探索更多的可能性所付出的代价。
Exploitation:在强化学习中,始终执行目前的最优解付出的代价。

始终执行目前最优解意味着放弃潜在的更优解的可能性,探索更多可能性则意味可能探索到很多收益极低的分支。任何一个强化学习算法都是这两者的平衡。

多臂老虎机问题(Multi-Arm Bandit Problem)的起源

部分内容转载自从thompson-sampling到增强学习-再谈多臂老虎机问题

老虎机是赌场里最常见的一个设备,一家赌场里有那么多机器,每次摇动都可能后悔或者获得一定额度的奖励,你通过选择不同的老虎机臂最大化自己的利益。

在最原始的多臂老虎机问题中,每个臂可获得的收益是一定的,不随着用户特征或者上下文环境的变化而变化。即:

问题描述

(Bernoulli Bandit)假设我们有一个K臂老虎机,每一个臂(action)的回报率(reward_i)都是固定的,但是agent并不知道这个回报率是多少,agent如何在T回合内最大化自己的回报(注意,这里的T通常是远远大于K的)。

在互联网行业,多臂老虎机问题之所以非常流行,是因为这些action可以被看做不同的广告投放,当用户来到网站上看到广告,对每一个广告有固定的点击率,那么平台就需要寻找一种最优策略来显示广告,最大化自己的利益。

Problem Formulation

我们在这里以最简单的形式定义一个K-臂老虎机,它由K个reward概率分布 &lt; D 1 , D 2 , . . . , D K &gt; &lt;D_1, D_2, ..., D_K&gt; <D1,D2,...,DK>组成,其期望为 μ 1 , μ 2 , . . . , μ K \mu_1, \mu_2, ..., \mu_K μ1,μ2,...,μK, 方差为 σ 1 2 , σ 2 2 , . . . , σ K 2 \sigma_1^2, \sigma_2^2, ..., \sigma_K^2 σ12,σ22,...,σK2。在每一轮尝试(t = 1, 2, …)中,玩家选择一个臂 j ( t ) j(t) j(t),并得到一个回报 r ( t ) ∼ D j ( t ) r(t) \sim D_{j(t)} r(t)Dj(t)

算法的目标是最小化total expected regret,而它是这样定义的:

  • 在某一个固定的round T中, R T = T μ ∗ − ∑ t = 1 T μ j ( t ) R_T = T_\mu^* - \sum_{t = 1}^T \mu_{j(t)} RT=Tμt=1Tμj(t),其中 μ ∗ \mu ^* μ代表回报最高的臂的期望回报。
  • 因此,我们可以将total expected regret表示如下: R T = T μ ∗ − μ j ( t ) ∑ t = 1 T E ( T k ( T ) R_T = T_\mu^* - \mu_{j(t)}\sum_{t = 1}^T E(T_k(T) RT=Tμμj(t)t=1TE(Tk(T).其中 T k ( T ) T_k(T) Tk(T)是用来指示在前T轮中第k个臂被拉动的次数的随机变量。

ϵ − g r e e d y \epsilon - greedy ϵgreedy 算法

最简单的做法就是贪心,模型想办法计算每一个action的回报,然后选择回报最大的action进行操作。这种贪心的做法问题就是没有完全探索其它奖励概率的可能性,很容易丢掉最优解。

ϵ − g r e e d y \epsilon - greedy ϵ

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值