【CS231n笔记】05 Training Neural Networks, Part I

最新推荐文章于 2023-01-15 14:01:48 发布

binlearning

最新推荐文章于 2023-01-15 14:01:48 发布

阅读量346

点赞数

分类专栏： CS231n笔记文章标签：深度学习 CS231n

本文链接：https://blog.csdn.net/binlearning/article/details/53899475

版权

CS231n笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

0.简史
1.激活函数
2.数据预处理
3.权值初始化
4.Batch Normalization
5.训练流程
6.超参数优化

0.简史
Frank Rosenblatt, ~1957: Perceptron 硬件实现
Widrow and Hoff, ~1960: Adaline/Madaline 硬件实现
Rumelhart et al. 1986: First time back-propagation became popular 反向传播的提出
Hinton and Salakhutdinov, 2006: Reinvigorated research in Deep Learning 逐层预训练+整体微调
George Dahl, Dong Yu, Li Deng, Alex Acero, 2010:《ontext-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition》语音领域突破
Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton, 2012: 《Imagenet classification with deep convolutional neural networks》图像领域突破

1.激活函数（Activation Functions）
上一节中已经粗略介绍过常用的激活函数，现在详细考察每个激活函数的优缺点。
（1）Sigmoid函数
这里写图片描述
将数值挤压到[0,1]区间
契合生物神经元的饱和激活率形式，早期得到广泛应用
缺点
饱和区域的导数几乎为零，造成反向传播中的梯度消失现象
输出不是关于原点对称的，影响收敛速度
指数运算exp()稍微耗时
（2）双曲正切函数tanh
这里写图片描述
将数值挤压到[-1,1]区间
优点
输出关于原点对称
缺点
饱和区域导数几乎为零，造成反向传播中的梯度消失现象
（3）修正线性单元（Rectified Linear Unit，ReLU）

优点
在输出为正时不存在饱和区域
计算复杂性低
收敛速度比sigmoid/tanh快很多，约6倍
缺点
不是关于原点对称的
在输出为负时梯度为零，反向传播不会更新梯度值
另
dead ReLU现象，主要有两种原因：一是初始化时即使得ReLU进入未激活状态，所以一般初始化ReLU神经元的偏置为小的正值（如0.01）；二是由于学习率太大，参数更新使得函数值进入负值区域，这样的失活一般不可逆。
（4）Leaky ReLU
这里写图片描述
优点
没有饱和区域
计算快速
收敛速度快
不会失活
（5）Parametric Rectifier (PReLU)
f(x) = max(ax, x)
（6）Exponential Linear Units (ELU)

优点
具有ReLU函数的所有优点
不会失活
输出近似零均值
缺点
需要指数计算
（7）Maxout “Neuron”
计算方式不同于以往
优点
没有ReLU的缺点，仍然是分段线性，但不会饱和，不会失活。
缺点
参数/神经元的数量翻倍

实际应用建议：
— 使用ReLU，但是要注意学习率
— 尝试使用Leaky ReLU / Maxout / ELU
— 尝试使用双曲正切（tanh），但不一定会有好的效果
— 不要使用Sigmoid

2.数据预处理
常用的预处理有：均值减除、归一化、PCA、白化（whitening），处理后效果如下图所示：
这里写图片描述

这里写图片描述

实际应用建议：
对于图像来说，只进行中心化处理就可以
— 减去均值图像，例如AlexNet
均值图像为[H,W,C]的数组
— 减去每个通道的均值，例如VGGNet
均值在每个通道上对应一个数值，共三个
一般不会做标准化，而是使用PCA或者白化处理。

3.权值初始化
Q：如果所有权值初始化为零会怎样？
A：所有权值初始化为零，那么所用神经元的前向-反向传播计算全部一样，所以不可用。
那么考虑用很小的随机数来进行权值初始化。一般是使用从均值为零，标准差很小的高斯函数中随机选取。
这种初始化方法是可行的，但是随着网络层数的增加，这种简单的初始化方法会导致激活函数非均匀分布。

通过一个程序来考察激活函数统计情况，10层神经网络，每层500个神经元，使用不同初始化方法和激活函数。
（1）初始化W = np.random.randn(fan_in, fan_out) * 0.01
激活函数tanh
这里写图片描述
（2）初始化W = np.random.randn(fan_in, fan_out) * 1.0
激活函数tanh

（3）初始化Xavier W = np.random.randn(fan_in, fan_out) / np.sqrt(fan_in)
激活函数tanh

（4）初始化Xavier W = np.random.randn(fan_in, fan_out) / np.sqrt(fan_in)
激活函数ReLU
这里写图片描述
（5）初始化W = np.random.randn(fan_in, fan_out) / np.sqrt(fan_in/2)
激活函数ReLU

与Xavier对比
W = np.random.randn(fan_in, fan_out) / np.sqrt(fan_in)
W = np.random.randn(fan_in, fan_out) / np.sqrt(fan_in/2)

研究初始化问题的相关论文：
Understanding the difficulty of training deep feedforward neural networks
Exact solutions to the nonlinear dynamics of learning in deep linear neural networks
Random walk initialization for training very deep feedforward networks
Delving deep into rectifiers: Surpassing human-level performance on ImageNet Classification
Data-dependent Initializations of Convolutional Neural Networks
All you need is a good init
…

4.Batch Normalization
“you want unit gaussian activations? just make them so.”
对于某些层的一个批次的激活函数值，可以通过下面计算使得每个维度都符合单元高斯分布：
这里写图片描述
i)计算每个维度上的均值和方差
ii)归一化