1 强化学习(Reinforcement Learning, RL)初步介绍

【下一篇 2 从Multi-arm Bandits问题分析 - RL进阶

当前的机器学习算法可以分为3种:有监督的学习(Supervised Learning)、无监督的学习(Unsupervised Learning)和强化学习(Reinforcement Learning),结构图如下所示:

其他许多机器学习算法中学习器都是学习怎样做,而RL是在尝试的过程中学习在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中,当前的行动不仅会影响当前的rewards,还会影响之后的状态和一系列的rewards。RL最重要的3个特性在于:(1)通常是一种闭环的形式;(2)不会直接指示选择哪种行动(actions);(3)一系列的 actions 和奖励信号(reward signals)都会影响之后较长的时间。

RL与有监督学习、无监督学习的比较:
  (1)有监督的学习是从一个已经标记的训练集中进行学习,训练集中每一个样本的特征可以视为是对该 situation 的描述,而其 label 可以视为是应该执行的正确的 action,但是有监督的学习不能学习交互的情景,因为在交互的问题中获得期望行为的样例是非常不实际的,agent 只能从自己的经历(experience)中进行学习,而 experience 中采取的行为并一定是最优的。这时利用RL就非常合适,因为RL不是利用正确的行为来指导,而是利用已有的训练信息来对行为进行评价。
  
  (2)因为RL利用的并不是采取正确行动的 experience,从这一点来看和无监督的学习确实有点像,但是还是不一样的,无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构,而RL的目的是最大化 reward signal。
  
  (3)总的来说,RL与其他机器学习算法不同的地方在于:其中没有监督者,只有一个 reward 信号;反馈是延迟的,不是立即生成的;时间在 RL 中具有重要的意义;agent 的行为会影响之后一系列的data。
  
RL采用的是边获得样例边学习的方式,在获得样例之后更新自己的模型,利用当前的模型来指导下一步的行动,下一步的行动获得 reward 之后再更新模型,不断迭代重复直到模型收敛。在这个过程中,非常重要的一点在于 “在已有当前模型的情况下,如果选择下一步的行动才对完善当前的模型最有利”,这就涉及到了RL中的两个非常重要的概念:探索(exploration)开发(exploitation)

  • exploration 是指选择之前未执行过的 actions,从而探索更多的可能性;
  • exploitation 是指选择已执行过的 actions,从而对已知的 actions 的模型进行完善。

RL非常像是 “trial-and-error learning”,在尝试和试验中发现好的 policy。就比如下图中的曲线代表函数 f ( x ) f(x) f(x),它是一个未知的 [ a , b ] [a,b] [a,b] 的连续函数,现在让你选择一个 x x x 使得 f ( x ) f(x) f(x) 取的最大值,规则是你可以通过自己给定 x x x 来查看其所对应的 f ( x ) f(x) f(x),假如通过在 [ a , 0 ] [a,0] [a,0] 之间的几次尝试你发现在接近 x 1 x_1 x1 的时候的值较大,于是你想通过在 x 1 x_1 x

  • 28
    点赞
  • 141
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值