《吴恩达深度学习》02改善深层神经网络：超参数调优、正则化以及优化（第3周超参数调优、Batch正则化和程序框架）

最新推荐文章于 2022-02-18 20:22:02 发布

ZJ_Windy_Feng

最新推荐文章于 2022-02-18 20:22:02 发布

阅读量187

点赞数

分类专栏：深度学习理论学习

本文链接：https://blog.csdn.net/fzj0121/article/details/105214231

版权

深度学习理论学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

02. 改善深层神经网络：超参数调优、正则化以及优化

第三周超参数调优、Batch正则化和程序框架

3.1 调试处理

超参数
（1）常见参数： $\alpha, \beta, \beta_1, \beta_2, \epsilon$ ，层数，每层单元数，学习率衰减，mini-batch规模
（2）重要性排名：a. $\alpha$ ， b. $\beta$ ，每层单元数，mini-batch规模，c. 层数，学习率衰减
尝试随机值
由粗糙到精细策略

3.2 为超参数选择合适的范围

随机选择超参数
超参数适应的规模
使用对数数轴
代码： $r = - 4 * n p . r a n d o m . r a n d ()$
$\alpha=10^{r}$
指数加权平均的超参
$\beta = 0.9, \cdots, 0.999$ ，因此不能使用线性随机均匀取值。因此考虑 $1-\beta = 0.1, \cdots, 0.001$ ，然后采用对数随机均匀取值。

3.3 超参数训练的实践：Pandas VS Caviar

两种流派
（1）Babysitting one模型

（2）并行训练多个模型

3.4 正则化网络的激活函数

归一化加速学习
Batch归一化的实现
（1）给定神经网络的隐藏值 $z^{(1)}, \cdots, z^{(m) }$
（2）均值 $\mu = \frac{1}{m}\sum_i z^{(i)}$
（3）均方差 $\delta^2 = \frac{1}{m}\sum_i (z^{(i)}-\mu)^2$
（4）归一化 $z^{(i)}_{norm}=\frac{z^{(i)}-\mu}{\sqrt{\delta^2+\epsilon}}$
（5）归一化后的参数服从均值为0，方差为1。但实际上，所有参数服从不同的分布更具有现实的意义，因此进一步改进为 $\widetilde{z}^{(i)}=\gamma z^{(i)}_{norm}+\beta$ ，其中 $\gamma, \beta$ 为待学习的参数，可用梯度下降法、动量法等进行学习。 $\gamma$ 和 $\beta$ 的作用是设置均值和方差。

3.5 将Batch Norm拟合进神经网络

将Batch归一化加入到神经网络中
（1）神经网络示意图

（2）计算路径

（3）代码tf.nn.batch_normalization
mini-batches中的应用

说明：因为后期需要用 $\beta$ 和 $\gamma$ 对 $z^{(i)}$ 进行重新缩放，所以不需再学习 $b^{[l]}$
梯度下降法的实现
对于 $\cdots, num$ mini-batches
在每个mini-batch $X^{\{i\}}$ 中计算正向传播（用 $\widetilde{z}^{[l]}$ 代替 $z^{[l]}$ ）
计算反向传播 $dw^{[l]}, d\beta^{[l]}, d\gamma^{[l]}$
更新参数（梯度下降法、动量法等）

3.6 Batch Norm为什么奏效？

类比于输入的归一化
对于分布偏差输入的学习
为什么这是神经网络的问题？
batch norm减少了隐藏量变化范围，即减弱了前面层参数对后面层的影响。确保不论每层的值如何改变，均值和方差都是一定的。
Batch Norm也有正则化的作用。
Batch norm每次只能处理一个mini-batch

3.7 测试时的Batch Norm

测试时的Batch norm
测试时，每次只有一个样本，因此平均值和方差没有意义。故需要在全部mini-batch上使用指数加权平均（也称为流动平均）的方法进行估计。该方法较为鲁棒的。

3.8 Softmax回归

softmax是一种多分类器。
设全部类别为 $C$ ，则softmax的输出层为 $C$ 维的向量。
设最终输出层为第 $l$ 层，则该层的计算为：
$z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}$ ， $(C, 1)$ 向量
激活函数：
$t=e^{(z^{[l]})}$ ， $(C, 1)$ 向量
$a^{[l]}=\frac{t}{\sum_{i=1}^C t_i}$ ， $(C, 1)$ 向量，包含了归一化在内。
Softmax举例（可视为逻辑回归的一般形式）

3.9 训练一个Softmax分类器

理解Softmax（回顾上一节内容）
hard max是指输出的是具体地某个类别标签。
当 $C = 2$ 时，softmax退化为逻辑回归。
损失函数（最大似然估计法）
$L(\hat{y}, y)=-\sum_{j=1}^Cy_jlog\hat{y}_j$
代价函数
$J(w^{[1]}, b^{[1]}, \cdots)=\frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)})$
向量化表示
softmax上的梯度下降法（反向传播）
$dz^{[l]}=\hat{y}-y$

3.10 深度学习框架

深度学习框架
（1）Caffe
（2）CNTK
（3）DL4J
（4）Keras
（5）Lasagne
（6）mxnet
（7）PaddlePaddle
（8）TensorGlow
（9）Theano
（10）Torch
选择深度学习框架的标准
（1）易于编程
（2）运行速度
（3）开源，良好的管理

3.11 TensorFlow

启发性问题
（1）代价函数： $J(w)=w^2-10w+25$
（2）代码块

import numpy as np
import tensorflow as tf
w = tf.Variable(0, dtype=tf.float32) # 定义变量
cost = tf.add(tf.add(w**2, tf.multiply(-10, w)), 25) # 定义代价函数
train = tf.train.GradientDescentOptimizer(0.01).minimize(cost) # 优化算法
init = tf.global_variable_initializer()
session = tf.Session()
session.run(init)
session.run(w) #此时输出值w为0
seesion.run(train) #训练一次
for i in range(1000):#训练1000次
	session.run(train)

（3）tensorflow中数据读取

import numpy as np
import tensorflow as tf
coefficients = np.array([[1], [-20], [25]]) #模拟要读取的数据
w = tf.Variable([0], dtype=tf.float32)
x=tf.placeholder(tf.float32, [3, 1]) #为要读取的数据预留位置
cost = x[0][0]*w**2 + x[1][0]*w+x[2][0] #代价函数
train = tf.train.GradientDescentOptimizer(0.01).minimizer(cost)
init = tf.global_variables_initializer()
session = tf.Session()
session.run(init)
for i in range(1000)；
	session.run(train, feed_dict=(x:coefficients))#其中coefficients为提前读取的数据变量

ZJ_Windy_Feng

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《吴恩达深度学习》02改善深层神经网络：超参数调优、正则化以及优化（第3周超参数调优、Batch正则化和程序框架）

02. 改善深层神经网络：超参数调优、正则化以及优化第三周超参数调优、Batch正则化和程序框架3.1 调试处理超参数（1）常见参数：α,β,β1,β2,ϵ\alpha, \beta, \beta_1, \beta_2, \epsilonα,β,β1,β2,ϵ，层数，每层单元数，学习率衰减，mini-batch规模（2）重要性排名：a. α\alphaα， b. β\betaβ，...
复制链接

扫一扫