【基础系列】赏析Andrew Ng教授《Deep Learning》ch2改善深层神经网络-超参数调试正则化以及优化

常某某的好奇心

已于 2022-03-08 09:35:56 修改

阅读量1k

点赞数

分类专栏：吴恩达《深度学习》和李沐《动手学深度学习 v2》文章标签：深度学习

于 2022-03-08 09:29:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42889517/article/details/123317229

版权

吴恩达《深度学习》和李沐《动手学深度学习 v2》专栏收录该内容

12 篇文章 0 订阅

订阅专栏

原作者：https://www.bilibili.com/video/BV1FT4y1E74V?p=82&spm_id_from=pageDriver

在这里插入图片描述

第一周：深度学习的实践层面(Practical aspects of Deep Learning)

1.1 训练，验证，测试集（Train / Dev / Test sets）

1)应用型机器学习是一个高度迭代的过程.
请添加图片描述
2)划分

3)注意

问题系列之一

1.2 偏差，方差（Bias /Variance）

1)区别
请添加图片描述
2)判断

3)注意

1.3 机器学习基础（Basic Recipe for Machine Learning）

1)流程
请添加图片描述
2)注意

1.4 正则化（Regularization）

1)引入
请添加图片描述
2)应用一

3)应用二

1.5 为什么正则化有利于预防过拟合呢？（Why regularization reduces overfitting?）

1)解释
请添加图片描述

2)注意

1.6 dropout 正则化（Dropout Regularization）

1)训练阶段-反向随机失活(inverted dropout)
请添加图片描述
2)测试阶段

1.7 理解 dropout（Understanding Dropout）

1)解释
请添加图片描述
2)实施技巧

1.8 其他正则化方法（Other regularization methods）

1)Data augmentation
通过随意翻转与裁剪图片,可以增大数据集,额外生成假训练数据。

2)Early stopping
步骤
请添加图片描述
与L2正则化的比较

1.9 归一化输入（Normalizing inputs）-加速训练的方法

1)步骤
请添加图片描述
2)解释

问题系列之二

1.10 梯度消失/梯度爆炸（Vanishing / Exploding gradients）

1)例子
请添加图片描述
2)问题

1.11 神经网络的权重初始化（Weight Initialization for Deep NetworksVanishing / Exploding gradients）

1)解决
请添加图片描述
2)注意

问题系列之三

1.12 梯度的数值逼近（Numerical approximation of gradients）-确保Backprop的正确实施

1)定义-导数(双边)
请添加图片描述
2)应用

3)误差比较

1.13 梯度检验（Gradient checking）

1)步骤
请添加图片描述

2)注意

1.14 梯度检验应用的注意事项（Gradient Checking Implementation Notes）

请添加图片描述

第二周：优化算法 (Optimization algorithms)

优化系列之一

2.1 Mini-batch 梯度下降（Mini-batch gradient descent）

1)划分
请添加图片描述
2)训练

2.2 理解mini-batch梯度下降法（Understanding mini-batch gradient descent）

1）SGD、BGD与MGD
在这里插入图片描述

2）选择

优化系列之二

基础

2.3 指数加权平均数（Exponentially weighted averages）

1)定义
请添加图片描述
2)例子

2.4 理解指数加权平均数（Understanding exponentially weighted averages）

1)运算
请添加图片描述
2)理解

3)优缺

2.5 指数加权平均的偏差修正（Bias correction in exponentially weighted averages）

1)效果
请添加图片描述
2)实现

应用

2.6 动量梯度下降法（Gradient descent with Momentum）

1)效果与实现
请添加图片描述
2)理论与现实

3)其他

2.7 RMSprop

1)效果与实现
请添加图片描述
2)注意

2.8 Adam 优化算法(Adam optimization algorithm)

1)双"剑"合璧
请添加图片描述
2)参数选择

优化系列之三

2.9 学习率衰减(Learning rate decay)

1)效果
请添加图片描述
2)实现

高维迷惑

2.10 局部最优的问题(The problem of local optima)

1)鞍点-高维零梯度点
a)低维
请添加图片描述

b)高维
请添加图片描述
2)核心问题:缓慢学习的平稳段

第三周超参数调试、Batch正则化和程序框架（Hyperparameter tuning）

超参篇

3.1 调试处理（Tuning process）

1)超参优先级
请添加图片描述
2)测试值的选择
a)传统取样点与随机选择点*

b)由粗到精

3.2 为超参数选择合适的范围（Using an appropriate scale to pick hyperparameters）

1)合理搜索超参数:从线性标尺到对数标尺
请添加图片描述

2)指数加权平均参数与灵敏度

3.3 超参数调试的实践：Pandas VS Caviar（Hyperparameters tuning in practice: Pandas vs. Caviar）

1)逐渐改良型与并行实验型
请添加图片描述

2)应用

BN篇

3.4 归一化网络的激活函数（Normalizing activations in a network）

1)归一化网络:从输入层到隐藏层
a)思想
请添加图片描述

b)实现

2)作用与效果

3.5 将 Batch Norm 拟合进神经网络（Fitting Batch Norm into a neural network）

1)BN与参数
请添加图片描述

2)BN与mini-batches
a)结合

b)训练

3.6 Batch Norm 为什么奏效？（Why does Batch Norm work?）

1)解释一(数据改变分布Covariate shift):BN稳定了每层的单元分布,减弱了层层之间的学习依赖性
a)Covariate shift
请添加图片描述
b)BN的稳定作用

2)解释二:轻微正则化效果

3.7 测试时的 Batch Norm（Batch Norm at test time）

1)实现
请添加图片描述
2)注意
在这里插入图片描述

多分类篇

3.8 Softmax 回归（Softmax regression）

1)机理
请添加图片描述
2)举例

3.9 训练一个 Softmax 分类器（Training a Softmax classifier）

1)Softmax回归与logistic回归
请添加图片描述

2)train
a)Loss function

b)Vectorization(m sample)

c)Gradient descent

深度学习框架篇

3.11 TensorFlow

在这里插入图片描述

a)写法一:表达式
请添加图片描述
b)写法二:Vectorization

c)注意

常某某的好奇心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【基础系列】赏析Andrew Ng教授《Deep Learning》ch2改善深层神经网络-超参数调试正则化以及优化

原作者：https://www.bilibili.com/video/BV1FT4y1E74V?p=82&spm_id_from=pageDriver第一周：深度学习的实践层面(Practical aspects of Deep Learning)1.1 训练，验证，测试集（Train / Dev / Test sets）1)应用型机器学习是一个高度迭代的过程.2)划分3)注意问题系列之一1.2 偏差，方差（Bias /Variance）1)区别2)判断3)注.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。