一、强化学习基本概念

1.1 何为强化学习?

  强化学习(Reinforcement Learning, RL)是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指:机器在环境中的某一状态下采取一个动作决策,并把该决策应用到环境中,环境发生相应的改变,并将改变产生的奖励值和决策后的下一状态返回给机器。通常交互是迭代进行的,机器的目标是在多轮交互过程中实现奖励最大化(也可能是最小化,取决于奖励函数的设计)。在强化学习中,上述“机器”被描述为智能体( Agent ),与监督学习中的模型不同,强化学习的智能体可以感知环境信息,且能通过决策影响环境,而非单纯给出预测信号。

  强化学习的交互过程如图1-1所示。在每一轮的交互中,智能体感知环境目前所处状态,经过自身计算给出本轮的决策,并将其应用到环境中;环境在智能体做出决策后,产生相应的实时奖励值并发生状态转移。智能体则在下一轮交互中感知到新的环境状态,以此类推,直到任务完成。

在这里插入图片描述

图1-1 强化学习交互过程

  根据描述,智能体有3大关键要素,即感知、决策与奖励。

  • 感知:智能体感知环境状态。
  • 决策:智能体根据当前状态计算出达到目标需要采取的动作的过程。决策策略是智能体智能形式的体现,是不同智能体的核心区别。
  • 奖励:环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。这个标量信号是衡量智能体该轮动作好坏的依据。

面向决策任务的强化学习与面向预测任务的监督学习的区别?

  1. 决策任务往往涉及多轮交互,即序贯决策;而预测任务通常是单论独立任务。
  2. 如果决策也是单轮的,则可以转化为“判别最优动作”的预测任务。
  3. 因为决策是多轮的,所以智能体需要在每轮决策时根据环境变化做出相应改变,因此当前轮带来的最大奖励反馈动作从全局来看不一定是最优的。

1.2 强化学习的环境

  强化学习的智能体是在和一个动态环境的交互过程中玩成序贯决策的。所谓动态环境,即环境会随着某些因素的变化而不断演变,在数学和物理学中,我们称之为随机过程。动态环境在生活中随处可见,例如城市交通、足球比赛、星系运动等。对于随机过程,关键要素即状态以及状态转移的条件概率分布。

  若在环境自身演变的随机过程中加入外来干扰因素,即智能体的动作,那么环境的下一时刻概率分布就将由当前状态和当前状态下智能体动作共同决定,用数学公式可表示为:
下一刻状态 ∼ P ( ⋅ ∣ 当前状态 , 智能体的动作 ) 下一刻状态 \sim \bm{P}(·|当前状态, 智能体的动作) 下一刻状态P当前状态,智能体的动作)

  上式可知,智能体决策的动作应用到环境中,使得环境发生相应的状态改变,而只能提则需要在新的状态下进一步给出决策。

  由此可知,与面向决策任务的智能体进行交互的环境是一个动态随机过程,其未来状态的分布由当前状态和智能体决策的动作共同决定,并且每一轮状态转移都伴随着两方面的随机性:一是智能体决策动作的随机性,二是环境基于当前状态和智能体动作来采取下一刻状态的随机性。

1.3 强化学习的目标

  在上述动态环境下,智能体和环境每次进行交互时,环境会产生相应的奖励信号,往往用标量表示。这个奖励信号是衡量当前动作好坏的标准。整个交互过程每一轮获得的奖励信号可以累加,形成智能体的整体回报(return),好比一盘游戏最后的分数值。根据环境的动态性我们可以知道,即使智能体的策略不变,智能体的初始状态不变,对应获得的奖励也可能不同。因此,在强化学习中,我们关注回报的期望,并将其定义为价值(value),这就是强化学习中智能体学习的优化目标。

  的计算相对复杂,需要对交互过程中每一轮智能体采取的动作的概率分布和环境相应状态转移的概率分布做积分运算。

1.4 强化学习的数据

  从数据层面,我们分析强化学习和监督学习的区别:
  监督学习的任务建立在从给定的数据分布中采样得到训练数据集,通过优化在训练数据集中设定的目标函数(如最小化预测误差)来找到模型的最优参数。训练数据集背后的数据分布是完全不变的。在强化学习中,数据是在智能体与环境交互过程中得到的。如果智能体不采取某个决策的动作,那么该动作对应的数据就永远无法被观测到,所以当前智能体的训练数据源于之前智能体的决策结果,因此,智能体的策略不同,与环境交互所产生的数据分布就不同。

  强化学习中有一个关于数据分布的概念,即占用度量(occupancy measure)。归一化的占用度量用于衡量一个智能体决策与一个动态环境交互过程中,采样到一个具体的状态动作(state-action pair)的概率分布。

  占用度量有一个重要性质:给定两个策略及其与一个动态环境交互得到的两个占用度量,那么当且仅当这两个占用度量相同时,这两个策略相同。也就是说,如果一个智能体的策略有所改变,那么他和环境交互得到的占用度量也会相应改变。

  根据占用度量这一重要性质,我们可以引申到强化学习本质的思维方式:

  1. 强化学习的策略在训练过程中会不断更新,其对应的数据分布(占用度量)也会相应地改变。因此,强化学习的一大难点在于,智能体看到的数据分布是随着智能体的学习而不断发生改变的。
  2. 由于奖励建立在状态动作对之上,一个策略对应的价值其实就是一个占用度量下对应奖励的期望,因此寻找最优策略也对应着寻找最优占用度量

  对于监督学习的任务,我们的目标是找到一个优化函数,使其在训练集上最小化一个给定的损失函数。在训练数据独立同分布的假设下,这个优化目标表示最小化模型在整个数据分布上的泛化误差(genneralization error),简要公式概括如下:
最优模型 = a r g   m i n 模型   E ( 特征,标签 ) ∼ 数据分布 [ 损失函 数 ( 标签,模 型 ( 特征 ) ) ] 最优模型=arg\ min_{模型}\ E_{(特征,标签) \sim 数据分布}[损失函数_{(标签,模型_{(特征)})}] 最优模型=arg min模型 E(特征,标签)数据分布[损失函(标签,模(特征))]

  相比之下,强化学习的最终优化目标是最大化智能体策略在和动态动态环境交互过程中的价值。据1.3可知,策略的价值可以等价转换成奖励函数在策略的占用度量上的期望,即:
最优策略 = a r g   m a x 策略   E ( 状态,动作 ) ∼ 策略的占用度量 [ 奖励函 数 ( 状态,动作 ) ] 最优策略 = arg \ max_{策略}\ E_{(状态,动作)\sim 策略的占用度量}[奖励函数_{(状态,动作)}] 最优策略=arg max策略 E(状态,动作)策略的占用度量[奖励函(状态,动作)]

  • 9
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值