Tensorflow过拟合与欠拟合

最新推荐文章于 2023-08-25 18:03:45 发布

鱼之天空

最新推荐文章于 2023-08-25 18:03:45 发布

阅读量782

点赞数

分类专栏：深度学习笔记文章标签： python

本文链接：https://blog.csdn.net/MHeartWGO/article/details/106516283

版权

深度学习笔记专栏收录该内容

16 篇文章 2 订阅

订阅专栏

由于真实数据的分布往往是未知而且复杂的，无法推断出其分布函数的类型和相关参数，因此人们在选择学习模型的容量时，往往会根据经验值选择稍大的模型容量。但模型的容量过大时，有可能出现在训练集上表现较好，但是测试集上表现较差的现象。

当模型的容量过大时，网络模型除了学习到训练集数据的模态之外，还把额外的观测误差也学习进来，导致学习的模型在训练集上面表现较好，但是在未见的样本上表现不佳，也就是模型泛化能力偏弱，我们把这种现象叫作过拟合(Overfitting)。当模型的容量过小时，模型不能够很好地学习到训练集数据的模态，导致训练集上表现不佳，同时在未见的样本上表现也不佳，我们把这种现象叫作欠拟合(Underfitting)。

尽管统计学习理论很难给出神经网络所需要的最小容量，但是却可以根据奥卡姆剃刀原理(Occam’s razor)来指导神经网络的设计和训练。奥卡姆剃刀原理是由 14 世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam)提出的一个解决问题的法则，他在《箴言书注》2 卷 15 题说“切勿浪费较多东西，去做‘用较少的东西，同样可以做好的事情’。”1。也就是说，如果两层的神经网络结构能够很好的表达真实模型，那么三层的神经网络也能够很好的表达，但是我们应该优先选择使用更简单的两层神经网络，因为它的参数量更少，更容易训练，也更容易通过较少的训练样本获得不错的泛化误差。

测试集中的样本不能参与模型的训练，防止模型“记忆” 住数据的特征，损害模型的泛化能力。

划分过的训练集与原来的训练集的功能一致，用于训练模型的参数，而验证集则用于选择模型的超参数(模型选择，Model selection).

❑ 根据验证集的性能表现来调整学习率、权值衰减系数、训练次数等。

❑ 根据验证集的性能表现来重新调整网络拓扑结构。
❑ 根据验证集的性能表现判断是否过拟合和欠拟合。

验证集与测试集的区别在于，算法设计人员可以根据验证集的表现来调整模型的各种超参数的设置，提升模型的泛化能力，但是测试集的表现却不能用来反馈模型的调整，否则测试集将和验证集的功能重合，因此在测试集上的性能表现将无法代表模型的泛化能力。

如何选择合适的 Epoch 就提前停止训练(Early Stopping)，避免出现过拟合现象呢?我们可以通过观察验证指标的变化，来预测最适合的 Epoch 可能的位置。具体地，对于分类问题，我们可以记录模型的验证准确率，并监控验证准确率的变化，当发现验证准确率连续𝑛个 Epoch 没有下降时，可以预测可能已经达到了最适合的 Epoch 附近，从而提前终止训练。

通过限制网络参数的稀疏性，可以来约束网络的实际容量。引入范数

优化目标除了要最小化原来的损失函数L( ,𝑦)之外，还需要约束网络参数的稀疏性𝛺(𝜃)，优化算法会在降低L( ,𝑦)的同时，尽可能地迫使网络参数𝜃𝑖变得稀疏，它们之间的权重关系通过超参数𝜆来平衡。较大的𝜆意味着网络的稀疏性更重要;较小的𝜆则意味着网络的训练误差更重要。通过选择合适的𝜆超参数，可以获得较好的训练性能，同时保证网络的稀疏性，从而获得不错的泛化能力。

数据增强(Data Augmentation)是指在维持样本标签不变的条件下，根据先验知识改变样本的特征，使得新产生的样本也符合或者近似符合数据的真实分布。

TensorFlow 中提供了常用图片的处理函数，位于 tf.image 子模块中。通过 tf.image.resize 函数可以实现图片的缩放功能，我们将数据增强一般实现在预处理函数 preprocess 中，将图片从文件系统读取进来后，即可进行图片数据增强操作。

def preprocess(x,y):
# 预处理函数
# x: 图片的路径，y:图片的数字编码 
    x = tf.io.read_file(x)
    x = tf.image.decode_jpeg(x, channels=3)  # RGBA 
# 图片缩放到 244x244 大小，这个大小根据网络设定自行调整 
x = tf.image.resize(x, [244, 244])

 # 图片逆时针旋转 180 度
x = tf.image.rot90(x,2)
# 随机水平翻转
x = tf.image.random_flip_left_right(x)
# 随机竖直翻转
x = tf.image.random_flip_up_down(x)

# 图片先缩放到稍大尺寸
x = tf.image.resize(x, [244, 244])
# 再随机裁剪到合适尺寸
x = tf.image.random_crop(x, [224,224,3])

通过生成模型在原有数据上进行训练，学习到真实数据的分布，从而利用生成模型获得新的样本，这种方式也可以在一定程度上提升网络性能。如通过条件生成对抗网络 (Conditional GAN,简称 CGAN)可以生成带标签的样本数据

以实心网格所在的像素为参考点，它周边欧式距离小于或等于 𝑘 的像素点以矩形网格表示，网格内的像素点重要性较高，网格外的

像素点较低。这个高宽为𝑘的窗口称为感受野(Receptive Field)，它表征了每个像素对于中心像素的重要性分布情况，网格内的像素才会被考虑，网格外的像素对于中心像素会被简单地忽略。

这种基于距离的重要性分布假设特性称为局部相关性，它只关注和自己距离较近的部分节点，而忽略距离较远的节点。在这种重要性分布假设下，全连接层的连接模式变成了如图 10.4 所示，输出节点𝑗只与以𝑗为中心的局部区域(感受野)相连接，与其它像素无连接。

2014 年，Matthew D. Zeiler 等人 [5]尝试利用可视化的方法去理解卷积神经网络到底学到了什么。通过将每层的特征图利用“反卷积”网络(Deconvolutional Network)映射回输入图片，即可查看学到的特征分布，如图 10.32 所示。可以观察到，第二层的特征对应到边、角、色彩等底层图像提取;第三层开始捕获到纹理这些中层特征;第四、五层呈现了物体的部分特征，如小狗的脸部、鸟类的脚部等高层特征。通过这些可视化的手段，我们可以一定程度上感受卷积神经网络的特征学习过程。

图片数据的识别过程一般认为也是表示学习(Representation Learning)的过程，从接受到的原始像素特征开始，逐渐提取边缘、角点等底层特征，再到纹理等中层特征，再到头部、物体部件等高层特征，最后的网络层基于这些学习到的抽象特征表示(Representation) 做分类逻辑的学习。学习到的特征越高层、越准确，就越有利于分类器的分类，从而获得较好的性能。从表示学习的角度来理解，卷积神经网络通过层层堆叠来逐层提取特征，网络训练的过程可以看成特征的学习过程，基于学习到的高层抽象特征可以方便地进行分类任务。

应用表示学习的思想，训练好的卷积神经网络往往能够学习到较好的特征，这种特征的提取方法一般是通用的。比如在猫、狗任务上学习到头、脚、身躯等特征的表示，在其它动物上也能够一定程度上使用。基于这种思想，可以将在任务 A 上训练好的深层神经网络的前面数个特征提取层迁移到任务 B 上，只需要训练任务 B 的分类逻辑(表现为网络的最末数层)，即可取得非常好的效果，这种方式是迁移学习的一种，从神经网络角度也称为网络微调(Fine-tuning)。

可以观察到，通过循环移动感受野的方式并没有改变网络层可导性，同时梯度的推导也并不复杂，只是当网络层数增大以后，人工梯度推导将变得十分的繁琐。不过不需要担心，深度学习框架可以帮我们自动完成所有参数的梯度计算与更新，我们只需要设计好网络结构即可。

参数标准化很难从理论层面解释透彻

网络层输入𝑥分布相近，并且分布在较小范围内时(如 0 附近)，更有利于函数的优化。

那么如何保证输入𝑥的分布相近呢?数据标准化可以实现此目的，通过数据标准化操作可以将数据𝑥映射到𝑥̂:

$\hat{x} = \frac{x - \mu _{r}}{\sqrt{\sigma _{r}^{2} + \epsilon }}$ 公式1

\hat{x} = \frac{x - \mu _{r}}{\sqrt{\sigma _{r}^{2} + \epsilon }}

$\mu _{r}$ ， $\sigma _{r}^{2}$ 来自统计的所有数据的均值和方差。 $\epsilon$ 是为防止出现除 0 错误而设置的较小数字，如 e−8。

在基于 Batch 的训练阶段，如何获取每个网络层所有输入的统计数据𝜇𝑟、𝜎𝑟2呢？

$\mu _{B} = \frac{1}{m}\sum_{m}^{i = 1}x_{i}$ 公式2

$\sigma _{B}^{2} = \frac{1}{m}\sum_{m}^{i = 1}(x_{i} - \mu _{B})^{2}$ 公式3

所以在训练阶段，通过公式1标准化输入，并记录每个Batch的期望与方差，

实际上，为了提高 BN 层的表达能力，BN 层作者引入了“scale and shift”技巧，将𝑥̂变量再次映射变换:

𝑥̃ = 𝑥̂ ∙ 𝛾 + 𝛽

𝛾参数实现对标准化后的𝑥̂再次进行缩放，𝛽参数实现对标准化的𝑥̂进行平移，不同的是，𝛾、𝛽参数均由反向传播算法自动优化，实现网络层“按需”缩放平移数据的分布的目的。

训练阶段：

𝜇𝑟 ←momentum∙𝜇𝑟 +( −momentum)∙𝜇𝐵

𝜎𝑟2 ← momentum ∙ 𝜎𝑟2 + ( − momentum) ∙ 𝜎𝐵2

迭代更新全局训练数据的统计值𝜇𝑟和𝜎𝑟2，其中 momentum 是需要设置一个超参数，用于平衡𝜇𝑟、𝜎𝑟2的更新幅度:当momentum= 时，𝜇𝑟和𝜎𝑟2直接被设置为最新一个Batch的𝜇𝐵 和𝜎𝐵2;当momentum= 时，𝜇𝑟和𝜎𝑟2保持不变，忽略最新一个Batch的𝜇𝐵和𝜎𝐵2，在 TensorFlow 中，momentum 默认设置为 0.99。

测试阶段：

计算输出𝑥̃ ，其中𝜇 、𝜎 2、𝛾、𝛽均来自训练阶段统计或优化的结果，在测试阶段直接使用，并不会更新这些参数。

普通的卷积层为了减少网络的参数量，卷积核的设计通常选择较小的 × 和3×3感受野大小。小卷积核使得网络提取特征时的感受野区域有限，但是增大感受野的区域又会增加网络的参数量和计算代价，因此需要权衡设计。

空洞卷积(Dilated/Atrous Convolution)的提出较好地解决这个问题，空洞卷积在普通卷积的感受野上增加一个 Dilation Rate 参数，用于控制感受野区域的采样步长，如下图 10.51 所示:当感受野的采样步长 Dilation Rate 为 1 时，每个感受野采样点之间的距离为 1，此时的空洞卷积退化为普通的卷积;当 Dilation Rate 为 2 时，感受野每 2 个单元采样一个点，如图 10.51 中间的绿色方框中绿色格子所示，每个采样格子之间的距离为 2;同样的方法，图 10.51 右边的 Dilation Rate 为 3，采样步长为 3。尽管 Dilation Rate 的增大会使得感受野区域增大，但是实际参与运算的点数仍然保持不变。

以输入为单通道的 × 张量，单个3×3卷积核为例，如下图10.52所示。在初始位置，感受野从最上、最右位置开始采样，每隔一个点采样一次，共采集 9 个数据点，如图 10.52 中绿色方框所示。这 9 个数据点与卷积核相乘运算，写入输出张量的对应位置。

卷积核窗口按着步长为𝑠 = 向右移动一个单位，如图 10.53 所示，同样进行隔点采样，共采样 9 个数据点，与卷积核完成相乘累加运算，写入输出张量对应位置，直至卷积核移动至最下方、最右边位置。需要注意区分的是，卷积核窗口的移动步长𝑠和感受野区域的采样步长 Dilation Rate 是不同的概念。

空洞卷积在不增加网络参数的条件下，提供了更大的感受野窗口。但是在使用空洞卷积设置网络模型时，需要精心设计 Dilation Rate 参数来避免出现网格效应，同时较大的 Dilation Rate 参数并不利于小物体的检测、语义分割等任务。

转置卷积通过在输入之间填充大量的 padding 来实现输出高宽大于输入高宽的效果，从而实现向上采样的目的，

转置卷积并不是普通卷积的逆过程，但是二者之间有一定的联系，同时转置卷积也是基于普通卷积实现的。在相同的设定下，输入𝒙经过普通卷积运算后得到𝒐 = Conv(𝒙)，我们将𝒐送入转置卷积运算后，得到𝒙′ = ConvTranspose(𝒐)，其中𝒙′ ≠ 𝒙，但是𝒙′与𝒙形状相同。

深度残差网络并没有增加新的网络层类型，只是通过在输入和输出之间添加一条 Skip Connection，因此并没有针对 ResNet 的底层实现。在 TensorFlow 中通过调用普通卷积层即可实现残差模块。

循环神经网络：

卷积神经网络利用数据的局部相关性和权值共享的思想大大减少了网络的参数量，非常适合于图片这种具有空间(Spatial)局部相关性的数据，已经被成功地应用到计算机视觉领域的一系列任务上。自然界的信号除了具有空间维度之外，还有一个时间(Temporal)维度。具有时间维度的信号非常常见，比如我们正在阅读的文本、说话时发出的语音信号、随着时间变化的股市参数等。这类数据并不一定具有局部相关性，同时数据在时间维度上的长度也是可变的，卷积神经网络并不擅长处理此类数据。

那么如何解决这一类信号的分析、识别等问题是将人工智能推向通用人工智能路上必须解决的一项任务。本章将要介绍的循环神经网络可以较好地解决此类问题。在介绍循环神经网络之前，首先我们来介绍对于具有时间先后顺序的数据的表示方法。

具有先后顺序的数据一般叫作序列(Sequence)，比如随时间而变化的商品价格数据就是非常典型的序列。

我们已经知道神经网络本质上是一系列的矩阵相乘、相加等数学运算，它并不能够直接处理字符串类型的数据。如果希望神经网络能够用于自然语言处理任务，那么怎么把单词或字符转化为数值就变得尤为关键。接下来我们主要探讨文本序列的表示方法，其他非数值类型的信号可以参考文本序列的表示方法。

我们把文字编码为数值的过程叫作 Word Embedding。One-hot 的编码方式实现 Word Embedding 简单直观，编码过程不需要学习和训练。但是 One-hot 编码的向量是高维度而且极其稀疏的，大量的位置为 0，计算效率较低，同时也不利于神经网络的训练。

从语义角度来讲，One-hot 编码还有一个严重的问题，它忽略了单词先天具有的语义相关性。举个例子，对于单词“like”、“dislike”、“Rome”、“Paris”来说，“like”和“dislike”在语义角度就强相关，它们都表示喜欢的程度;“Rome”和“Paris”同样也是强相关，他们都表示欧洲的两个地点。对于一组这样的单词来说，如果采用 One-hot 编码，得到的向量之间没有相关性，不能很好地体现原有文字的语义相关度，因此 One-hot 编码具有明显的缺陷。

在自然语言处理领域，有专门的一个研究方向在探索如何学习到单词的表示向量(Word Vector)，使得语义层面的相关性能够很好地通过 Word Vector 体现出来。一个衡量词向量之间相关度的方法就是余弦相关度(Cosine similarity):

$similarity(a, b) = cos(\theta ) = \frac{a \cdot b}{|a|\cdot|b|}$

similarity(a, b) = cos(\theta ) = \frac{a \cdot b}{|a|\cdot|b|}

其中𝒂和𝒃代表了两个词向量。下图演示了单词“France”和“Italy”的相似度，以及单词“ball”和“crocodile”的相似度，𝜃为两个词向量之间的夹角。可以看到cos(𝜃)较好地反映了语义相关性。

所以词向量是怎么来的？

在神经网络中，单词的表示向量可以直接通过训练的方式得到，我们把单词的表示层叫作 Embedding 层。Embedding 层负责把单词编码为某个词向量𝒗，它接受的是采用数字编码的单词编号𝑖，如 2 表示“I”，3 表示“me”等，系统总单词数量记为𝑁vocab，输出长度为𝑛的向量𝒗: 𝒗 = 𝑓 (𝑖|𝑁 , 𝑛)

Embedding 层的查询表是随机初始化的，需要从零开始训练。实际上，我们可以使用预训练的 Word Embedding 模型来得到单词的表示方法，基于预训练模型的词向量相当于迁移了整个语义空间的知识，往往能得到更好的性能。

目前应用的比较广泛的预训练模型有 Word2Vec 和 GloVe 等。它们已经在海量语料库训练得到了较好的词向量表示方法，并可以直接导出学习到的词向量表，方便迁移到其它任务。

那么如何使用这些预训练的词向量模型来帮助提升 NLP 任务的性能?非常简单，对于 Embedding 层，不再采用随机初始化的方式，而是利用我们已经预训练好的模型参数去初始化 Embedding 层的查询表。

经过预训练的词向量模型初始化的 Embedding 层可以设置为不参与训练:net.trainable = False，那么预训练的词向量就直接应用到此特定任务上;如果希望能够学到区别于预训练词向量模型不同的表示方法，那么可以把 Embedding 层包含进反向传播算法中去，利用梯度下降来微调单词表示方法。

现在我们来考虑如何处理序列信号，以文本序列为例，考虑一个句子:

“I hate this boring movie”

通过 Embedding 层，可以将它转换为 shape 为[𝑏, 𝑠, 𝑛]的张量，𝑏为句子数量，𝑠为句子长度，𝑛为词向量长度。上述句子可以表示为 shape 为[1,5,10]的张量，其中 5 代表句子单词长度，10 表示词向量长度。

情感分类任务通过分析给出的文本序列，提炼出文本数据表达的整体语义特征，从而预测输入文本的情感类型:正面评价或者负面评价。从分类角度来看，情感分类问题就是一个简单的二分类问题，与图片分类不一样的是，由于输入是文本序列，传统的卷积神经网络并不能取得很好的效果。

首先我们想到的是，对于每个词向量，分别使用一个全连接层网络

𝒐 = 𝜎(𝑾𝑡𝒙𝑡 + 𝒃𝑡)

提取语义特征，如图 11.4 所示，各个单词的词向量通过𝑠个全连接层分类网络 1 提取每个单词的特征，所有单词的特征最后合并，并通过分类网络 2 输出序列的类别概率分布，对于长度为𝑠的句子来说，至少需要𝑠个全网

络层。

缺点：

网络参数量是相当可观的，内存占用和计算代价较高，同时由于每个序列的长度𝑠并不相同，网络结构是动态变化的

每个全连接层子网络𝑾𝑖和𝒃𝑖只能感受当前词向量的输入，并不能感知之前和之后的语境信息，导致句子整体语义的缺失，每个子网络只能根据自己的输入来提取高层特征，有如管中窥豹。

所以需要去解决。

上面𝑠个全连接层的网络并没有实现权值同享。我们尝试将这𝑠个网络层参数共享，这样其实相当于使用一个全连接网络来提取所有单词的特征信息

通过权值共享后，参数量大大减少，网络训练变得更加稳定高效。但是，这种网络结构并没有考虑序列之间的先后顺序，将词向量打乱次序仍然能获得相同的输出，无法获取有效的全局语义信息。

如何赋予网络提取整体语义特征的能力呢?或者说，如何让网络能够按序提取词向量的语义信息，并累积成整个句子的全局语义信息呢?我们想到了内存(Memory)机制。如果网络能够提供一个单独的内存变量，每次提取词向量的特征并刷新内存变量，直至最后一个输入完成，此时的内存变量即存储了所有序列的语义特征，并且由于输入序列之间的先后顺序，使得内存变量内容与序列顺序紧密关联。

我们将上述Memory机制实现为一个状态张量，如图11.6所示，除了原来的𝑾 参数共享外，这里额外增加了一个𝑾 参数，每个时间戳𝑡上状态张量刷新机制为:

h𝑡=𝜎(𝑾 𝒙𝑡+𝑾 𝑡−1+𝒃)

其中状态张量为初始的内存状态，可以初始化为全0，经过𝑠个词向量的输入后得到网络最终的状态张量 𝑠， 𝑠较好地代表了句子的全局语义信息，基于 𝑠通过某个全连接层分类器即可完成情感分类任务。

通过一步步地探索，我们最终提出了一种“新型”的网络结构，如图 11.7 所示，在每个时间戳𝑡，网络层接受当前时间戳的输入𝒙𝑡和上一个时间戳的网络状态向量 h𝑡−1，变换后得到当前时间戳的新状态向量，并写入内存状态中，其中𝑓 代表了网络的运算逻辑，𝜃为网络参数集。

在循环神经网络中，激活函数更多地采用 tanh 函数，并且可以选择不使用偏执𝒃来进一步减少参数量。状态向量 𝑡可以直接用作输出，即𝒐𝑡 = h𝑡，也可以对 𝑡做一个简单的线性变换𝒐𝑡 = 𝑊 𝑜 𝑡后得到每个时间戳上的网络输出h𝒐𝑡。

需要注意的是，在 TensorFlow 中，RNN 表示通用意义上的循环神经网络，对于我们目前介绍的基础循环神经网络，它一般叫做 SimpleRNN。SimpleRNN 与 SimpleRNNCell 的区别在于，带 Cell 的层仅仅是完成了一个时间戳的前向运算，不带 Cell 的层一般是基于 Cell 层实现的，它在内部已经完成了多个时间戳的循环运算，因此使用起来更为方便快捷。