DL.AI - Course2 课程笔记

最新推荐文章于 2023-12-18 21:21:04 发布

TessieHe

最新推荐文章于 2023-12-18 21:21:04 发布

阅读量187

点赞数

分类专栏： DL 文章标签：机器学习 DL

本文链接：https://blog.csdn.net/u012420609/article/details/79635179

版权

DL 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization

Continenet :
- Setting up your Machine Learning Application
- Regularizing your Neural Network
- Setting up you optimization problem

Improving Deep Neural Networks Hyperparameter tuning Regularization and Optimization

1. Train/dev/test set

可能来自不同数据，但是要保证训练集和测试集处于同样的分布
test set是为了做无偏估计。
当你不需要做无偏估计的时候也可以不使用test set

2. Training Set Error & Dev Error

由二者判断模型是high bias or variance.（跟问题的最优误差比较 Bayes error）

3. Basic Recipe for Machine Learning

机器学习的一般流程：
高偏差：bigger network,train longer，NN archetechture
高方差：更多的数据，regularization正则化，NN archetechture

4.Overfitting 解决过拟合

4.1.Regularization

Logistic Regression
fing $w,b$ to minimize $J(w,b) :$
$J (w, b) = 1 m \sum i = 1 m L (y ̂ (i), y (i)) + λ 2 m | | w | | x$ $J(w,b) = \dfrac{1}{m}\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)}) + \dfrac{\lambda}{2m}||w||_x$
$L_2$ regularization: $||w||_2^2=\sum w_i^2$
$L_1$ regularization: $||w||_1=\sum |w_i|$
NN
$J (w, b) = 1 m \sum i = 1 m L (y ̂ (i), y (i)) + λ 2 m \sum l = 1 L | | w [l] | | 2 F$ $J(w,b) = \dfrac{1}{m}\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)}) + \dfrac{\lambda}{2m}\sum_{l=1}^L||w^{[l]}||_F^2$
Frobenius Norm: $||w^{[l]}||_F^2=\sum_{j=1}\sum_{i=1} w_{i,j}^{[l]2}$
weight decay: $dw^{[l]} = (from BP) + \dfrac{\lambda}{m}w^{[l]}$

4.2.Why Regularization

使得多个w接近于零，减小网络复杂度
使得每个Z接近于零，由于激活函数在z接近于零时是线性的，所以整个网络趋向于线性

4.3.Dropout 随机失活

Inverted dropout：not for testing

d3 = np.random.rand(a3.shape[0],a3.shape[1])<keep_prob#保存的概率
a3 = np.multiply(a3,d3)#过滤
a3 /=keep_prob#确保a3期望值不变

损失函数波动很大，可以关闭drop out运行代码，debug之后再打开drop out

4.4.Data Augmentation 数据扩展

图片镜像，翻转，扭曲，剪裁…

4.5.Early Stopping

画train/dev的损失曲线，在dev的损失开始上升时停止
缺点：减小偏差和减小方差两个过程是耦合的（非正交），难以单独调试

5.Gradient checking 梯度检验

$d\theta_{[i]approx} = \dfrac{J(\theta_1,\theta_2...\theta_i+\epsilon,...) - J(\theta_1,\theta_2...\theta_i-\epsilon,...)}{2\epsilon}$
check
$| | d θ a p p r o - d θ | | 2 | | d θ a p p r o | | 2 + | | d θ | | 2 < 10 - 5$ $\frac{||d\theta_{appro} - d\theta||_2}{||d\theta_{appro}||_2+||d\theta||_2}<10^{-5}$
only deubg，不要再在训练的时候使用
若代价函数中使用了正则化，则gradient cheking时也要使用正则化的J
不要于drop out同时使用

6.Speeding Up 加速训练

6.1.Normalize Input正则化输入

$x = \dfrac{x-\mu}{\sigma^2}$
对于dev要使用与training set同样的 $\mu$ , $\sigma$

6.2. 权重初始化

改善梯度消失和梯度爆炸问题
权重初始化后保证输入零均值，标准方差为1
Relu: $w^{[l]} = np.random.randn(shape)*\sqrt{(\dfrac{2}{n^{[l-1]}}})$
tanh(Xavier Initilization):
$w^{[l]} = np.random.randn(shape)*\sqrt{(\dfrac{1}{n^{[l-1]}}})$

6.3. mini-batch gradient descent

将很大的数据随机分为几个batch size,与历遍整个数据后更新一次相比，mini-batch是历遍一个mini batch size的数据后更新一步

6.4. 加速优化算法

6.4.1 指数加权平均 Exponentially weighted averages （移动平均）

已知去年每天的温度，对今年温度进行预测
- $v_0 = 0 ,v_1 = 0.9v_0 +0.1\theta_1，v_t=\beta v_{t-1} +(1-\beta)\theta_t$
- $v_t = \beta v_t + \beta(1-\beta)v_{t-1} +\beta(1-\beta)^2v_{t-2}... + \beta(1-\beta)^{t-1} v_1)$ 所有系数加起来接近于1
- $\theta_1$ 是去年今天的温度
- $\beta$ 越大，越平缓
- $v_t \approx 过去\dfrac{1}{1-\beta}天的平均温度$
- $\beta = 0.9: \approx 过去10天的平均温度$
- $\beta = 0.98: \approx 过去50天的平均温度$

6.4.2 偏差修正 bias correction

在指数加权平均的基础上 $v_t = \dfrac{v_t}{1-\beta^t}$
对初期数据修正比较大

6.4.3 Gradient Descent with Momentum 动量梯度下降算法

计算梯度的指数加权平均数，再用加权后的梯度更新变量
Momentum
on iteration t:
- compute $dw,db$ on the current mini-batch
- $v_{dw} = \beta v_{dw} + (1-\beta)dw$
  $v_{db} = \beta v_{db} + (1-\beta)db$
- $w = w-\alpha v_{dw},b = b-\alpha v_{db}$
- $\beta$ 通常选择0.9
- 实际使用时不需要偏差修正，因为10次迭代后初始影响就可以消除

6.4.4 RMSprop(root mean square prop)

$s_{dw} = \beta_2 s_{dw} +(1-\beta_2)dw^2$
$s_{db} = \beta_2 s_{db} +(1-\beta_2)db^2$
$w = w-\alpha\dfrac{dw}{\sqrt{s_{dw}+\epsilon}},b = b-\alpha\dfrac{db}{\sqrt{s_{db}+\epsilon}}, \epsilon =10^{-8}$
可使用更大的学习速率二不容易发散

6.4.5 Adam optimization algorithm

$v_{dw}=0,s_{dw}=0,v_{db}=0,s_{db}=0$
on iteration t:
- compute $dw,db$ using mini-batch
- $v_{dw} = \beta_1v_{dw}+(1-\beta)dw,v_{db} = \beta_1v_{db}+(1-\beta_1)db$
- $s_{dw} = \beta_2s_{dw}+(1-\beta_2)dw^2, s_{db} = \beta_2 + (1-\beta_2)db^2$
- $v_{dw}^{corrected} = v_{dw}/(1-\beta_1^t), v_{db}^{corrected} = v_{db}/(1-\beta_1^t)$
  
  $s_{dw}^{corrected} = s_{dw}/(1-\beta_2^t), s_{db}^{corrected} = s_{db}/(1-\beta_2^t)$ 偏差修正
- $w = w-\alpha \dfrac{v_{dw}^{corrected}, }{\sqrt{s_{dw}^{corrected}+\epsilon}}$
  $b = b-\alpha \dfrac{v_{db}^{corrected}, }{\sqrt{s_{db}^{corrected}+\epsilon}}$
超参数： $\alpha,\beta_1(0.9),\beta_2(0.999),\epsilon(10^{-8})$

6.4.6 Learning rate decay 学习速率衰减

$\alpha =\dfrac{1}{1+decay rate*epoch number}*\alpha_0$

$\alpha = 0.95^{epochnum}*\alpha_0$

$\alpha = \dfrac{k}{\sqrt{epochnumber}}$

6.4.7 .Batch Normalization

增加系统的鲁棒性，使神经网络对超参数的选择更加稳定，范围也更加广
由于每一个minibatch的方差和均值都不一样，所以增加了系统噪音，有一点正则化的效果。batch size增大的时候这种噪音会减弱
Batch Norm
Given $z^{([l](i))}$ :
$\mu = \dfrac{1}{m}\sum_iz^{(i)}$

$\sigma^2 = \dfrac{1}{m}\sum_i(z_i-\mu)^2$

$z_{norm}^{(i)} = \dfrac{z^{(i)}-\mu}{\sqrt{\sigma^2+\epsilon}}$ 对 $z^{[l]}$ 的每一列进行归一化

$\hat{z}^{(i)} = \gamma z_{norm}^{(i)}+\beta$
$\gamma \beta$ 也是要每步更新的
对于测试集，使用训练集的均值和方差进行归一化

7.Local optimum局部最优解

高纬度空间并不太可能出现局部最优解，更多的是鞍点。对于鞍点，系统可以自动克服。

8.Tuning process 调参过程

Hyperparameters：
$\alpha$
$\beta,hidden\_units,mmini\_batchsize,$
$layers, learning\_rate\_decay$
$\beta_1,\beta_2,\epsilon$
Try random values: don’t use a grid
在表现很好的多组超参数范围内重新密集的随机取点，选择更好的超参数

9.Softmax Classifier

$t = e^{z^{[l]}}$ ,c分类的话t有c个分量
输出每个种类的可能性 $a^{[l]} = \dfrac{t}{\sum_{j=1}t_i}$
损失的度量 $L(\hat{y},y)=-\sum_{j=i}^cy_jlog\hat{y}_j$
损失函数 $J=\frac{1}{m}\sum_{i=1}^mL(\hat{y},y)$

10.Deep Learning frameworls

kears
pytorch
tensorflow

#求使得cost最小的w
import tensroflow as tf
w = tf.Variable(0,dtype=tf.float)
cost = tf.add(tf.add(w**2,tf.multiply(-10,w)),25)
train = tf.train.GradientDescentOptimizer(0.01).minimize(cost)

init = tf.global_variables_initializer()
session = tf.Session()
session.run(init)
print(session.run(w))

#迭代一次
session.run(train)
print(session.run(w))

#迭代1000次
for i in range(1000):
    session.run(train)
print(session.run(w))