原作者:https://www.bilibili.com/video/BV1FT4y1E74V?p=82&spm_id_from=pageDriver
第一周:深度学习的实践层面(Practical aspects of Deep Learning)
1.1 训练,验证,测试集(Train / Dev / Test sets)
1)应用型机器学习是一个高度迭代的过程.
2)划分
3)注意
问题系列之一
1.2 偏差,方差(Bias /Variance)
1)区别
2)判断
3)注意
1.3 机器学习基础(Basic Recipe for Machine Learning)
1)流程
2)注意
1.4 正则化(Regularization)
1)引入
2)应用一
3)应用二
1.5 为什么正则化有利于预防过拟合呢?(Why regularization reduces overfitting?)
1)解释
2)注意
1.6 dropout 正则化(Dropout Regularization)
1)训练阶段-反向随机失活(inverted dropout)
2)测试阶段
1.7 理解 dropout(Understanding Dropout)
1)解释
2)实施技巧
1.8 其他正则化方法(Other regularization methods)
1)Data augmentation
通过随意翻转与裁剪图片,可以增大数据集,额外生成假训练数据。
2)Early stopping
步骤
与L2正则化的比较
1.9 归一化输入(Normalizing inputs)-加速训练的方法
1)步骤
2)解释
问题系列之二
1.10 梯度消失/梯度爆炸(Vanishing / Exploding gradients)
1)例子
2)问题
1.11 神经网络的权重初始化(Weight Initialization for Deep NetworksVanishing / Exploding gradients)
1)解决
2)注意
问题系列之三
1.12 梯度的数值逼近(Numerical approximation of gradients)-确保Backprop的正确实施
1)定义-导数(双边)
2)应用
3)误差比较
1.13 梯度检验(Gradient checking)
1)步骤
2)注意
1.14 梯度检验应用的注意事项(Gradient Checking Implementation Notes)
第二周:优化算法 (Optimization algorithms)
优化系列之一
2.1 Mini-batch 梯度下降(Mini-batch gradient descent)
1)划分
2)训练
2.2 理解mini-batch梯度下降法(Understanding mini-batch gradient descent)
1)SGD、BGD与MGD
2)选择
优化系列之二
基础
2.3 指数加权平均数(Exponentially weighted averages)
1)定义
2)例子
2.4 理解指数加权平均数(Understanding exponentially weighted averages)
1)运算
2)理解
3)优缺
2.5 指数加权平均的偏差修正(Bias correction in exponentially weighted averages)
1)效果
2)实现
应用
2.6 动量梯度下降法(Gradient descent with Momentum)
1)效果与实现
2)理论与现实
3)其他
2.7 RMSprop
1)效果与实现
2)注意
2.8 Adam 优化算法(Adam optimization algorithm)
1)双"剑"合璧
2)参数选择
优化系列之三
2.9 学习率衰减(Learning rate decay)
1)效果
2)实现
高维迷惑
2.10 局部最优的问题(The problem of local optima)
1)鞍点-高维零梯度点
a)低维
b)高维
2)核心问题:缓慢学习的平稳段
第三周 超参数调试、Batch正则化和程序框架(Hyperparameter tuning)
超参篇
3.1 调试处理(Tuning process)
1)超参优先级
2)测试值的选择
a)传统取样点与随机选择点*
b)由粗到精
3.2 为超参数选择合适的范围(Using an appropriate scale to pick hyperparameters)
1)合理搜索超参数:从线性标尺到对数标尺
2)指数加权平均参数与灵敏度
3.3 超参数调试的实践:Pandas VS Caviar(Hyperparameters tuning in practice: Pandas vs. Caviar)
1)逐渐改良型与并行实验型
2)应用
BN篇
3.4 归一化网络的激活函数(Normalizing activations in a network)
1)归一化网络:从输入层到隐藏层
a)思想
b)实现
2)作用与效果
3.5 将 Batch Norm 拟合进神经网络(Fitting Batch Norm into a neural network)
1)BN与参数
2)BN与mini-batches
a)结合
b)训练
3.6 Batch Norm 为什么奏效?(Why does Batch Norm work?)
1)解释一(数据改变分布Covariate shift):BN稳定了每层的单元分布,减弱了层层之间的学习依赖性
a)Covariate shift
b)BN的稳定作用
2)解释二:轻微正则化效果
3.7 测试时的 Batch Norm(Batch Norm at test time)
1)实现
2)注意
多分类篇
3.8 Softmax 回归(Softmax regression)
1)机理
2)举例
3.9 训练一个 Softmax 分类器(Training a Softmax classifier)
1)Softmax回归与logistic回归
2)train
a)Loss function
b)Vectorization(m sample)
c)Gradient descent
深度学习框架篇
3.11 TensorFlow
a)写法一:表达式
b)写法二:Vectorization
c)注意