【Coursera】深度神经网络的改进：超参数调整、正则化和优化（更新中2023/04/12）

书文的学习记录本

已于 2023-04-12 13:57:16 修改

阅读量1k

点赞数 3

分类专栏： coursera 文章标签：深度学习

于 2023-02-06 19:22:27 首次发布

本文链接：https://blog.csdn.net/qq_43935969/article/details/128903145

版权

coursera 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细阐述了机器学习应用的基本步骤，包括训练集的划分、偏差与方差的分析以及正则化在网络中的作用，特别是Dropout正则化。接着讨论了优化问题，如输入归一化、梯度消失与爆炸问题及权重初始化。此外，提到了优化算法如动量梯度下降和Adam算法，以及学习率衰减。最后，文章涉及了超参数调优的策略和批量归一化在神经网络中的重要性，以及多类分类中的Softmax回归。

摘要由CSDN通过智能技术生成

文章目录

1 Setting up your Machine Learning Application

1.1 Train / Dev / Test sets

训练集
hold-out 交叉验证集 -> 开发集 dev set
测试集

1.2 Bias / Variance

偏差（偏离度）
方差（集中度）

1.3 Basic Recipe

训练集 -> 高偏差（训练误差） -> 不行 -> 找新的网络 -> 循环得到低偏差
开发集 -> 高方差（验证误差） -> 不行 -> 更多数据 / 正则化（减小过拟合） / 新的神经网络 -> 循环得到低方差
最终，找到低偏差低方差的网络和数据

改进网络：

找到是高偏差的问题还是高方差的问题
然后针对性进行上述改进
增大网络总能减小偏差而不增大方差（+正则化，代价：计算效率）

2 Regularizing your Neural Network

2.1 Regularization

如有w和b，正则化主要是对于w，因为主要的参数在w中，b只是众多参数中的一个，对结果影响不大
L2正则化，又称为权重衰减

2.2 Why regularization reduces overfitting

在这里插入图片描述为什么正则化可以防止过拟合？

对于上述的例子，要求J最小化，若把正则项 $\lambda$ 设置的很大，那么很多 $\omega$ 会非常接近于0，这些对应的隐藏单元影响被消除，神经网络被简化为一个非常小的类似与逻辑回归的网络。
从右边high variance到左边high bias， $\lambda$ 存在一个中间值，使得刚好为中间值，just right

在这里插入图片描述 $\lambda$ 很大的情况，网络还是网络，只不过相当于只取了中间一部分，接近于线性

即使是很深的网络，每层使用线性激活函数，还是只能计算线性的函数

2.3 Dropout Regularization

随机失活算法

常见：反向随机失活（inverted dropout）

描述80%的概率被抛弃

在这里插入图片描述为了保证最后的值变化不大，最后还需要除以（保留的概率，0.8）->解决了网络可能存在的一个缩放问题

2.4 Understanding Dropout

任何一个输入上的重量，都可能会消失 -> 分散权重
Dropout有类似于L2正则化的效果
计算机视觉没有足够高的数据 -> 容易过拟合 -> 常用dropout

2.5 Other Regularization Methods

缓解过拟合 -> 扩大数据集 -> 翻转、旋转、缩放
在这里插入图片描述 数据增强是一种接近正则化的技术
提前结束训练

3 Setting Up your Optimization Problem

3.1 Normalizing Inputs

在这里插入图片描述
归一化：所有维度

避免一个维度变化过小，另一个维度变化过大

在这里插入图片描述第一种需要较小的学习率，第二种都可以

3.2 Vanishing / Exploding Gradients

Vanishing Gradients：消失的梯度
Exploding Gradients：爆炸的梯度

本节课主要介绍了这两种梯度的问题，在权重大于1的情况，深层网络的累积，呈指数级增长，爆炸；在权重小于1的情况，深层网络的累积，呈指数级减小，很快趋近于0；

3.3 Weight Initializatiion for Deep Networks

解决部分问题的方法：更好、更细致地随机初始化神经网络

在这里插入图片描述
根据数理知识确定的范围，既不会比1大很多，也不会比1小很多，有效缓解梯度问题

3.4 Numerical Approximation of Gradients

梯度的数值逼近
取双侧插值来近似，同时+ $\epsilon$ 和- $\epsilon$ ，计算大的三角形

3.5 Gradient Checking

用梯度检查调试代码

在这里插入图片描述让估计的值和真值作比较，

相距的量级 -> $10^{-7}$ -> 好的
相距的量级 -> $10^{-5}$ -> 可能有错误
相距的量级 -> $10^{-3}$ -> 应该有错误

用于找出神经网络可能存在的错误

3.6 Gradient checking implementation notes

梯度检测实施笔记

不要在训练期间使用（训练太慢了） —— 仅仅在调试debug时
如果算法没有通过梯度检测，检查每个组件例如举例中 $d\Theta$ 中包含 $db^l$ 和 $d\omega^l$ ，可以找到错误实在b层或者 $\omega$ 的某一层
记住使用正则化
不能和dropout随即失活一起使用（因为dropout随机失活一写节点，对应的代价函数不好求）
随机初始化参数w、b是运行，也许经过一会儿训练再开始梯度检测

4 Optimization Algorithm

4.1 Mini-batch Gradient Descent

mini-batch：小批量训练集
一次处理一个小批量而不是整个数据集，比单纯的梯度下降快很多
在这里插入图片描述

4.2 Undnierstanding Mini-batch Gradient Descent

两种损失函数的下降曲线，一次导入整体的话，会不断下降，但是mini-batch，总体是下降的，但细节上存在上下起伏

在这里插入图片描述

批量梯度下降：（全局性好）方向是对的
随机梯度下降：（局部性）可能会走错，但最后也能走到附近点，但是不会到达
随机 ~ ：一次只加载一个，失去向量优势
批量 ~ ：一次迭代需要较长时间

minibatch size选择，一般是64/128/256/512

4.3 Exponentially Weighted Averages

Exponentially：指数型
Exponentially Weighted Averages：指数加权（滑动）平均

例子讲述

背后部分原理
右移动：更大的窗口计算的平均温度
在这里插入图片描述

公式

就是指数加权滑动平均

是后续一个超参数的选择，选择红色线最好

4.4 Understanding Exponentially Weighted Averages

在这里插入图片描述
根据将后面的式子展开，如果 $\beta$ 为0.9，那么十天后的系数回非常小，故此时式子主要关注前10的天气，后面的影响较小。 $\epsilon \approx \frac{1}{1-\beta}$ ，他告诉多少天作为平均气温

优点：存储空间小，只要要一行数字，基于新数值不断更新运算，只需要一行代码即可实现。

4.5 Bias Correction in Exponentially Weigted Average

使滑动平均更加精准
在这里插入图片描述
在一个实际例子中，就是如图，如果 $\beta$ 为0.98，正常来说应该得到如绿色这条线，但是实际得到的是紫色这条线（因为前面的没有值嘛/很小，基本只剩下 $\theta$ ），我们需要修复它。

在这里插入图片描述除以这个数值，使得整体系数就变大了，因为前面为0，相当于增大了已有的几个的重要性

4.6 Gradient Descent with Momentum

动量梯度下降算法：计算梯度的指数加权平均

比标准梯度下降算法更快

在这里插入图片描述

如图所示，纵轴上，平均是0，上下抵消，但是横纵上都偏右，所以平均后的效果更好
最常使用 $\beta = 0.9$ ，对应的是前10次的平均

4.7 RMSprop

Root Mean Square prop
又称为加速梯度下降

在这里插入图片描述
这里dw、db分别是垂直方向何水平方向，实际上它们都是非常高纬度地参数向量
square是因为对导数求了评分，最后取了平方根

一般加上这个 $\epsilon$ 是防止根号地数太小/趋近于0，一般取值 $10^{-8}$
能降低振荡 -> 故可以使用更大的学习率

4.8 Adam Optimization Algorithm

基于momentum和RMSprop
在这里插入图片描述
超参数选择， $\alpha$ 是在一个范围内试出来的

在这里插入图片描述
Adam：adaptive moment estimation

4.9 Learning Rate Decay

学习率变小
在这里插入图片描述

将训练epoch作为分母参与进来，这样损失epoch变大，学习率降低，实现动态调整

4.10 The Problem of Local Optima

local optima：局部最优
在这里插入图片描述
第一幅图：低维空间人们理解的局部最优
但在高维，如20000维，很难找到每个维度不都是凹/凸函数，更多是像图二的鞍点Saddle point

吴恩达之灵魂画手篇hhhh

停滞区，让训练变得非常缓慢
一般来说，并不会陷入局部最优（数据维数太高，很难满足各个维数梯度都为0，概率很小）