Reinforcement Learning - An Introduction强化学习读书笔记 Ch9.7-Ch9.11

9.7 非线性函数逼近: 人工神经网络

前向和循环ANN在强化学习系统中都会使用,但在这里仅用简单的前向神经网络为例来进行探讨。ANN使用的激活函数一般都是S形函数或sigmoid函数,有时也使用非线性整流函数或阶梯函数。ANN一般使用SGD进行训练,并使用反向传播算法。
在深度网络中,遇到过拟合问题,防止的方法包括:当模型的性能开始在验证集上下降时停止训练(交叉验证)、修改目标函数限制近似函数的复杂度(正则化)、引入参数依赖减小自由度(如参数共享)、随机丢弃法等。
也可以使用深度置信网络,也是一种层级连接网络,网络的较深层利用无监督学习算法逐层训练,使得优化是每层局部的,而不依赖于整个网络的目标函数,这可以有效地抽取能够捕捉输入统计特性的特征。首先训练最深的层,然后固定这一层,训练第二深的层,以此类推,直到所有或者绝大部分权值都训练了,这些权值会作为有监督学习的初始权值,接下来根据目标函数利用反向传播算法继续调整权值。
批量块归一化将较深层的输出输入给下一层之前进行归一化,利用小批量块在层与层之间进行归一化来改变深度ANN的学习率。
深度残差学习,当知道一个函数与恒等函数的差别可以帮助我们更好地学习这个函数,可以把残差输入给待学习的函数,在深度ANN中,将若干隐层组成一个模块,通过在模块旁边加入“捷径连接”来学习一个残差函数,这些连接将模块的输入直接送给它的输出,且没有增加额外的权值。
深度卷积网络,适合于处理高维空间数据,例如图像,如下图就是一个典型的卷积神经网络:
在这里插入图片描述
它包含交替出现的卷积层和下采样层,最后是几个全连接层,每一个卷积层产生一些“特征图”,每个特征图是一个单元阵列上的激活模式,每个单元对它的感受野内的数据执行相同的操作。下采样层的作用是降低特征图的空间分辨率,在下采样层中,特征图中的每一个单元是前一个卷积层的特征图中感受野内的单元的平均,使得网络对特征所在的空间位置不敏感,也就是使得网络的输出有空间不变性。

9.8 最小二乘时序差分

最小二乘时序差分(LSTD)直接通过估计A和b来直接计算TD不动点,首先估计:
在这里插入图片描述
对A的估计中加入一个单元矩阵量,可以保证它总是可逆的,原则上这两个估计都应该除以时间t,但是附加的系数并不重要,是因为在计算TD不动点的时候,该系数会被约掉:
在这里插入图片描述
LSTD的计算复杂度非常高,在计算A更新的时候涉及外积计算,计算和空间复杂度都是二次,更潜在的问题是使用的矩阵的逆,计算复杂度是三次项,但在这个式子里面,矩阵的求逆运算可以采用复杂度为二次项的增量式更新:
在这里插入图片描述
因此,可用存储和维护逆矩阵的形式,来进行复杂度为二次项的更新:
在这里插入图片描述

9.9 基于记忆的函数逼近

基于记忆的函数逼近方法仅仅在记忆中保存看到过的训练样本,而不更新任何的参数,在需要查询状态的价值估计的时候,就从记忆中检索出样本然后利用样本来计算查询状态的估计值。(也就是lazy learning的一种形式,将样本处理推迟到了系统被查询的时候)。
基于记忆的函数逼近是非参数化方法的主要例子,并不局限于一个固定的参数化的函数类,而是由训练样本本身和一些将他们结合起来为查询状态输出估计值的方法共同决定。不同的基于记忆的方法的主要区别在于如何选择和使用存储下来的训练样本。这里只关注局部学习方法,仅仅使用查询某个状态的相邻的样本来估计其价值函数的近似值,样本的相关性取决于状态之间的距离。
最简单的例子是最近邻法,将最近邻样本点价值直接返回作为查询状态的价值近似。
相比于参数化方法,具有不需要预先确定近似函数形式的优点,随着越来越多的数据积累,精确度也得以提高,且基于基于的局部近似可以将函数逼近集中在真实或者模拟轨迹中访问过的状态的局部邻域而不需要全局近似,同时基于记忆的方法允许agent对当前状态邻域的价值估计有即时的影响,而不需要增量式地调整参数来获得全局近似。
基于记忆的函数逼近方法,需要解决的关键问题就是查询的速度,而目前已经有一系列方法来加速近邻搜索,使用并行计算、使用特殊的多维数据结构来存储训练数据(如k-d树)、数据库在保持一定限度规模的同时进行主动的条目遗忘等等。

9.10 基于核函数的函数逼近

基于记忆的方法需要给样本分配权值,而权值往往基于状态之间的距离,分配权值的函数称为核函数,核函数回归是基于记忆的方法,对记忆中存储的所有阉割版的对应目标计算其核函数加权平均,并将结果返回给查询状态,基于存储样本的价值函数可以表示为:
在这里插入图片描述
一个常用的核函数是在9.5.5节中描述的在RBF函数逼近中使用的高斯径向基函数。通过调整重心和宽度的Barring methods是一种线性参数化方法,它的参数是每个RBF特征的权值,而这些权值则采用随机梯度或者半梯度下降进行学习,这种近似逼近的本质是余弦确定的RBF特征的线性组合。但使用RBF核的核函数回归法是基于记忆样本的,每个RBF以存储样本的状态为中心,也是非参数化的。
而任何线性参数回归方法都可以被重塑为核函数回归:
在这里插入图片描述

9.11 深入了解on-policy学习:“兴趣”与“强调”

本章到目前为止讨论的算法都将遇到的所有状态平等地对待,这样在on-policy分布中半梯度方法可以获得更好的理论结果。而目前考虑,对于一个MDP,可以有很多on-policy分布,所有的分布都遵从目标策略运行时的状态分布,但是它们在不同的轨迹中是不同的,从某种意义上来说就是源于轨迹的初始化不同。
兴趣值I,是一个非负标量变量,表示在t时刻有多大兴趣要精确估计一个状态的价值。
强调值M,这个标量会被乘上学习过程中的更新量,决定了再t时刻强不强调“学习”。
然后可以使用更一般的n步更新式:
在这里插入图片描述
而强调值也由兴趣值递归确定:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值