AI203:多臂强盗算法(一)简介 Multi-armed Bandit Algorithm : Intro

 背景介绍

78fb436b4dda4655b8447f7052b8992c.jpg

   匹诺康尼的老虎机

  多臂强盗算法(Multi-Armed Bandit)有时又被称作多臂老虎机算法。名字来源于赌场中的老虎机。是一个强化学习领域的研究问题。赌场中通常有这么两种人,一种是好赌成瘾的瘾君子,我们浅叫他xqc,另一种是真正把把赢的赌怪,我们叫他土块。多臂老虎机算法的目的就是每次都能拉中老虎机回报最多的拉杆,使xqc变成土块。

定义

   多臂老虎机是一个在n轮里learner和environment交互的顺序游戏。learner每一次拉动k个臂的老虎机的臂被称作一个action,而每轮action∈At,活动的集合。每一次action会得到未知分布的reward ,reward ∈ Xt,奖励的集合。

目的

  就是为了使xqc变成土块。也就是把把都能拉动带来最大回报的臂,使累积的财富最多。换成数学表述就是我们要

maxmize /sigma t:1->n Xt

  等价的,我们定义后悔Regret,为期望最大的值与真实值的差值,所以问题同样可以转换为

最小化Regret。而regret等于

MAX-/sigma t:1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值