机器学习笔记——强化学习

1.什么是强化学习?

现在的机器学习算法中,大多都是学习怎么做。而强化学习则是在不断尝试的过程中,寻找在特定情境下选择哪种行为可以获得最大回报(Reward)。

 

.2.强化学习(RL)和监督学习(SL),无监督学习(UL)的关系

(1)监督学习就是给一个训练集(训练集含有标签)进行学习,得出一个“函数”,能够对下一次新的输入准确预测其输出。而这种学习方式在交互式学习环境中不太适用,举个例子:在一场很大的台风中,不同位置,不同方向的风力不同,而驾驶员也不能单凭某个位置处某个方向的风力值进行粗略的飞行判断而就草率行事,这个判断将会影响飞机上乘客的安危以及下一秒飞机所处的情境,所以这可以说是一个交互式的学习环境,驾驶员需要不断的尝试并学习飞机在不同情境下的状态以便更好的做出下一步判断。在这里,驾驶员就相当于强化学习,不断尝试,不断学习,获取该情境下的最大回报。这时利用RL就非常合适,因为RL不是利用正确的行为来指导,而是利用已有的训练信息来对行为进行评价。 

(2)因为RL利用的并不是采取正确行动的experience,从这一点来看和无监督的学习确实有点像,但是还是不一样的,无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构,而RL的目的是最大化reward signal。 

(3)所以,总的来说,RL的特点在于:没有监督者,只有一个reward信号;反应回馈是延迟的;时间对RL的影响;一次的判决将会对后面的data产生影响

RL采用的是边获得样例边学习的方式,在获得样例之后更新自己的模型,利用当前的模型来指导下一步的行动,下一步的行动获得reward之后再更新模型,不断迭代重复直到模型收敛。在这个过程中,非常重要的一点在于“在已有当前模型的情况下,如果选择下一步的行动才对完善当前的模型最有利”,这就涉及到了RL中的两个非常重要的概念:探索(exploration)和开发(exploitation),exploration是指选择之前未执行过的actions,从而探索更多的可能性;exploitation是指选择已执行过的actions,从而对已知的actions的模型进行完善。RL非常像是“trial-and-error learning”,在尝试和试验中发现好的policy。就比如下图中的曲线代表函数f(x),它是一个未知的[a,b]的连续函数,现在让你选择一个x使得f(x)取的最大值,规则是你可以通过自己给定x来查看其所对应的f(x),假如通过在[a,0]之间的几次尝试你发现在接近x1的时候的值较大,于是你想通过在x1附近不断的尝试和逼近来寻找这个可能的“最大值”,这个就称为是exploitation,但是[0,b]之间就是个未探索过的未知的领域,这时选择若选择这一部分的点就称为是exploration,如果不进行exploration也许找到的只是个局部的极值。“exploration”与“exploitation”在RL中同样重要,如何在“exploration”与“exploitation”之间权衡是RL中的一个重要的问题和挑战。 

 

在RL中,agents是具有明确的目标的,所有的agents都能感知自己的环境,并根据目标来指导自己的行为,因此RL的另一个特点是它将agents和与其交互的不确定的环境视为是一个完整的问题。在RL问题中,有四个非常重要的概念: 

  (1)规则(policy) 

  Policy定义了agents在特定的时间特定的环境下的行为方式,可以视为是从环境状态到行为的映射,常用 π来表示。policy可以分为两类: 

  确定性的policy(Deterministic policy): a=π(s) 

  随机性的policy(Stochastic policy): π(a|s)=P[At=a|St=t] 

  其中,t是时间点,t=0,1,2,3,…… 

  St∈S,S是环境状态的集合,St代表时刻t的状态,s代表其中某个特定的状态; 

  At∈A(St),A(St)是在状态St下的actions的集合,At代表时刻t的行为,a代表其中某个特定的行为。 

  (2)奖励信号(a reward signal) 

  Reward就是一个标量值,是每个time step中环境根据agent的行为返回给agent的信号,reward定义了在该情景下执行该行为的好坏,agent可以根据reward来调整自己的policy。常用R来表示。 

  (3)值函数(value function) 

  Reward定义的是立即的收益,而value function定义的是长期的收益,它可以看作是累计的reward,常用v来表示。 

  (4)环境模型(a model of the environment) 

  整个Agent和Environment交互的过程可以用下图来表示: 

  其中,t是时间点,t=0,1,2,3,…… 

  St∈S,S是环境状态的集合; 

  At∈A(St),A(St)是在状态St下的actions的集合; 

  Rt∈R∈R 是数值型的reward。

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值