强化学习之MAB

强化学习不仅提供了指导人工智能agent如何行动的能力,还允许它通过和环境的相互作用自主学习。同时结合神经网络强大的表达能力和目标驱动学习方式,深度强化学习成为了强大的人工智能基本方法。构建这些人工智能程序和构建可监督学习程序有所不同。可监督学习只是简单的学习模型对某个输入的反馈,而强化学习算法使agent能够通过观察(observation)、奖励(reward)和动作(action)来学习对于输入的正确的反馈。

双臂老虎机问题(Two-Armed bandit)

最简单的强化学习问题就是多臂老虎机问题了。多臂老虎机问题本质上可以看做一个拥有n个槽的老虎机,转动每个槽都有固定回报概率。我们的目标就是找到回报概率最高的的槽并且不断的选择它来获取最高的回报。为了简化这个问题,假设这个机器只有两个槽,我们要做的就是从这两个槽中找到回报更高的那一个。事实上,这个问题非常简单,但是可以看作真正RL问题的一个原型。一般的RL问题需要符合如下条件

  • 不同的动作导致不同的回报。举个例子,在迷宫中寻找宝藏,如果往左就能获得宝藏,往右就什么都得不到。
  • 回报在时间上有延迟。沿用上述的例子,在迷宫中往左时,我们并不是立即知道我们走的就是正确的方向。
  • 某个动作下的回报跟当时的环境有关。继续刚才的例子,往左边是当前情况下的最佳选择,在其他情况下就不一定了。

多臂老虎机是学习强化学习良好的开端,我们不需要去担心#2和#3的问题。我们只需要关注哪个动作可以带来怎样的回报,并且确保我们能够选择理想的动作。用RL的术语来说,这就叫做Policy。我们将要用一种叫做策略梯度(policy gradients)的方法,该方法中我们的简单的神经网络通过和环境的的不断交互同时结合BP算法就可以学习到如何执行该动作的策略(policy)。在强化学习中,还有另一种方法叫做价值函数

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值