多臂老虎机问题

最新推荐文章于 2024-02-15 21:46:36 发布

做推荐的Bella酱

最新推荐文章于 2024-02-15 21:46:36 发布

阅读量1.4w

点赞数 3

分类专栏：强化学习文章标签：强化学习 MAB

本文链接：https://blog.csdn.net/friyal/article/details/82856798

版权

强化学习的基础概念

多臂老虎机是一个常见的强化学习问题，所以我们首先给出强化学习的一些基础概念：

强化学习不仅需要学习做什么，也需要学习如何根据与环境的交互采取相应的行动。强化学习的最终结果，就是要实现系统回报信号的最大化。学习者事先并不知道要去执行什么行为，需要自己去发现哪种行动能产生最大的回报。

在强化学习中，有两个可以进行交互的对象：智能体和环境。

智能体（agent）可以感知外界环境的状态（state）和反馈的奖励（reward），并进行学习和决策。
智能体的决策功能是指根据外界环境的状态来做出不同的动作（action），而学习功能是指根据外界环境的奖励来调整策略。
环境（environment）是智能体外部的所有事物，并受智能体动作的影响而改变其状态，并反馈给智能体相应的奖励。

Exploration-Exploitation tradeoff

Exploration：探索。这是指在强化学习过程中，探索更多的可能性所付出的代价。
Exploitation：在强化学习中，始终执行目前的最优解付出的代价。

始终执行目前最优解意味着放弃潜在的更优解的可能性，探索更多可能性则意味可能探索到很多收益极低的分支。任何一个强化学习算法都是这两者的平衡。

多臂老虎机问题（Multi-Arm Bandit Problem）的起源

部分内容转载自从thompson-sampling到增强学习-再谈多臂老虎机问题

老虎机是赌场里最常见的一个设备，一家赌场里有那么多机器，每次摇动都可能后悔或者获得一定额度的奖励，你通过选择不同的老虎机臂最大化自己的利益。

在最原始的多臂老虎机问题中，每个臂可获得的收益是一定的，不随着用户特征或者上下文环境的变化而变化。即：

问题描述

(Bernoulli Bandit)假设我们有一个K臂老虎机，每一个臂(action)的回报率(reward_i)都是固定的，但是agent并不知道这个回报率是多少，agent如何在T回合内最大化自己的回报(注意，这里的T通常是远远大于K的)。

在互联网行业，多臂老虎机问题之所以非常流行，是因为这些action可以被看做不同的广告投放，当用户来到网站上看到广告，对每一个广告有固定的点击率，那么平台就需要寻找一种最优策略来显示广告，最大化自己的利益。

Problem Formulation

我们在这里以最简单的形式定义一个K-臂老虎机，它由K个reward概率分布 $lt;D_1, D_2, ..., D_K>$ 组成，其期望为 $\mu_1, \mu_2, ..., \mu_K$ , 方差为 $\sigma_1^2, \sigma_2^2, ..., \sigma_K^2$ 。在每一轮尝试(t = 1, 2, …)中，玩家选择一个臂 $j (t)$ ,并得到一个回报 $\sim D_{j(t)}$ 。

算法的目标是最小化total expected regret，而它是这样定义的：

在某一个固定的round T中， $R_T = T_\mu^* - \sum_{t = 1}^T \mu_{j(t)}$ ，其中 $\mu ^*$ 代表回报最高的臂的期望回报。
因此，我们可以将total expected regret表示如下： $R_T = T_\mu^* - \mu_{j(t)}\sum_{t = 1}^T E(T_k(T)$ .其中 $T_k(T)$ 是用来指示在前T轮中第k个臂被拉动的次数的随机变量。

$\epsilon - greedy$ 算法

最简单的做法就是贪心，模型想办法计算每一个action的回报，然后选择回报最大的action进行操作。这种贪心的做法问题就是没有完全探索其它奖励概率的可能性，很容易丢掉最优解。

$\epsilon - greedy$

最低0.47元/天解锁文章

做推荐的Bella酱

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
多臂老虎机问题

强化学习的基础概念多臂老虎机是一个常见的强化学习问题，所以我们首先给出强化学习的一些基础概念：强化学习不仅需要学习做什么，也需要学习如何根据与环境的交互采取相应的行动。强化学习的最终结果，就是要实现系统回报信号的最大化。学习者事先并不知道要去执行什么行为，需要自己去发现哪种行动能产生最大的回报。在强化学习中，有两个可以进行交互的对象：智能体和环境。智能体（agent）可以感知外界环境的状...
复制链接

扫一扫