【基础系列】赏析Andrew Ng教授《Deep Learning》ch2改善深层神经网络-超参数调试 正则化以及优化

原作者:https://www.bilibili.com/video/BV1FT4y1E74V?p=82&spm_id_from=pageDriver

在这里插入图片描述

第一周:深度学习的实践层面(Practical aspects of Deep Learning)

1.1 训练,验证,测试集(Train / Dev / Test sets)

1)应用型机器学习是一个高度迭代的过程.
请添加图片描述
2)划分
请添加图片描述
3)注意
请添加图片描述
请添加图片描述

问题系列之一

1.2 偏差,方差(Bias /Variance)

1)区别
请添加图片描述
2)判断
请添加图片描述
3)注意
请添加图片描述

1.3 机器学习基础(Basic Recipe for Machine Learning)

1)流程
请添加图片描述
2)注意
请添加图片描述

1.4 正则化(Regularization)

1)引入
请添加图片描述
2)应用一
请添加图片描述
3)应用二
请添加图片描述
请添加图片描述

1.5 为什么正则化有利于预防过拟合呢?(Why regularization reduces overfitting?)

1)解释
请添加图片描述
请添加图片描述
2)注意
请添加图片描述

1.6 dropout 正则化(Dropout Regularization)

1)训练阶段-反向随机失活(inverted dropout)
请添加图片描述
2)测试阶段
请添加图片描述

1.7 理解 dropout(Understanding Dropout)

1)解释
请添加图片描述
2)实施技巧
请添加图片描述

1.8 其他正则化方法(Other regularization methods)

1)Data augmentation
通过随意翻转与裁剪图片,可以增大数据集,额外生成假训练数据。

2)Early stopping
步骤
请添加图片描述
与L2正则化的比较
请添加图片描述
请添加图片描述
请添加图片描述

1.9 归一化输入(Normalizing inputs)-加速训练的方法

1)步骤
请添加图片描述
2)解释
请添加图片描述

问题系列之二

1.10 梯度消失/梯度爆炸(Vanishing / Exploding gradients)

1)例子
请添加图片描述
2)问题
请添加图片描述

1.11 神经网络的权重初始化(Weight Initialization for Deep NetworksVanishing / Exploding gradients)

1)解决
请添加图片描述
2)注意
请添加图片描述

问题系列之三

1.12 梯度的数值逼近(Numerical approximation of gradients)-确保Backprop的正确实施

1)定义-导数(双边)
请添加图片描述
2)应用
请添加图片描述
3)误差比较
请添加图片描述

1.13 梯度检验(Gradient checking)

1)步骤
请添加图片描述
请添加图片描述
2)注意
请添加图片描述

1.14 梯度检验应用的注意事项(Gradient Checking Implementation Notes)

请添加图片描述

第二周:优化算法 (Optimization algorithms)

优化系列之一

2.1 Mini-batch 梯度下降(Mini-batch gradient descent)

1)划分
请添加图片描述
2)训练
请添加图片描述

2.2 理解mini-batch梯度下降法(Understanding mini-batch gradient descent)

1)SGD、BGD与MGD
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2)选择
在这里插入图片描述
在这里插入图片描述

优化系列之二

基础

2.3 指数加权平均数(Exponentially weighted averages)

1)定义
请添加图片描述
2)例子
请添加图片描述

2.4 理解指数加权平均数(Understanding exponentially weighted averages)

1)运算
请添加图片描述
2)理解
请添加图片描述
3)优缺
请添加图片描述

2.5 指数加权平均的偏差修正(Bias correction in exponentially weighted averages)

1)效果
请添加图片描述
2)实现
请添加图片描述

应用

2.6 动量梯度下降法(Gradient descent with Momentum)

1)效果与实现
请添加图片描述
2)理论与现实
请添加图片描述
3)其他
请添加图片描述

2.7 RMSprop

1)效果与实现
请添加图片描述
2)注意
请添加图片描述

2.8 Adam 优化算法(Adam optimization algorithm)

1)双"剑"合璧
请添加图片描述
2)参数选择
请添加图片描述

优化系列之三

2.9 学习率衰减(Learning rate decay)

1)效果
请添加图片描述
2)实现
请添加图片描述

高维迷惑

2.10 局部最优的问题(The problem of local optima)

1)鞍点-高维零梯度点
a)低维
请添加图片描述
请添加图片描述

b)高维
请添加图片描述
2)核心问题:缓慢学习的平稳段
请添加图片描述

第三周 超参数调试、Batch正则化和程序框架(Hyperparameter tuning)

超参篇

3.1 调试处理(Tuning process)

1)超参优先级
请添加图片描述
2)测试值的选择
a)传统取样点与随机选择点*
请添加图片描述
b)由粗到精
请添加图片描述

3.2 为超参数选择合适的范围(Using an appropriate scale to pick hyperparameters)

1)合理搜索超参数:从线性标尺到对数标尺
请添加图片描述
请添加图片描述
2)指数加权平均参数与灵敏度
请添加图片描述

3.3 超参数调试的实践:Pandas VS Caviar(Hyperparameters tuning in practice: Pandas vs. Caviar)

1)逐渐改良型与并行实验型
请添加图片描述
请添加图片描述
请添加图片描述
2)应用
请添加图片描述

BN篇

3.4 归一化网络的激活函数(Normalizing activations in a network)

1)归一化网络:从输入层到隐藏层
a)思想
请添加图片描述
请添加图片描述
b)实现
请添加图片描述
2)作用与效果
请添加图片描述

3.5 将 Batch Norm 拟合进神经网络(Fitting Batch Norm into a neural network)

1)BN与参数
请添加图片描述
请添加图片描述
2)BN与mini-batches
a)结合
请添加图片描述
b)训练
请添加图片描述

3.6 Batch Norm 为什么奏效?(Why does Batch Norm work?)

1)解释一(数据改变分布Covariate shift):BN稳定了每层的单元分布,减弱了层层之间的学习依赖性
a)Covariate shift
请添加图片描述
b)BN的稳定作用
请添加图片描述
2)解释二:轻微正则化效果
请添加图片描述

3.7 测试时的 Batch Norm(Batch Norm at test time)

1)实现
请添加图片描述
2)注意
在这里插入图片描述

多分类篇

3.8 Softmax 回归(Softmax regression)

1)机理
请添加图片描述
2)举例
请添加图片描述
请添加图片描述

3.9 训练一个 Softmax 分类器(Training a Softmax classifier)

1)Softmax回归与logistic回归
请添加图片描述
请添加图片描述
2)train
a)Loss function
请添加图片描述
b)Vectorization(m sample)
请添加图片描述
c)Gradient descent
请添加图片描述

深度学习框架篇

3.11 TensorFlow

在这里插入图片描述
在这里插入图片描述
a)写法一:表达式
请添加图片描述
b)写法二:Vectorization
请添加图片描述
c)注意
请添加图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值