【深度学习】网络初始化 (initialization)

JNingWei

已于 2023-01-26 16:18:57 修改

阅读量4.9k

点赞数 4

分类专栏：深度学习文章标签：深度学习人工智能计算机视觉神经网络 cnn

于 2017-12-18 17:42:03 首次发布

本文链接：https://blog.csdn.net/JNingWei/article/details/78835390

版权

79 篇文章

订阅专栏

好的开始是成功的一半。
为了让你的模型跑赢在起跑线 ε=ε=ε=(_￣▽￣) ，请慎重对待参数初始化。

	公式	效果
全0	0	导致梯度更新在同层之内完全一样
随机	$0.001 \cdot randn(in, out)$	导致 in、out 方差不一致，收敛较慢
Xavier	$\frac{0.001 \cdot randn(in, out)}{\sqrt{in}}$	做了方差规范化，维持了一致性。但未考虑到 relu 对 in 的影响
He	$\frac{0.001 \cdot randn(in, out)}{\sqrt{\frac{in}{2}}}$	考虑了 relu 的影响，对 relu网络更友好
导入预训练		最佳

Note：

tf的初始化器包括：tf.initializers.he_normal()、tf.initializers.truncated_normal()、tf.contrib.layers.xavier_initializer() 这三种。
建议采用默认配置。一般不会在这边想trick，真没啥明显增益。

TensorFlow中自带关于参数初始化的API，具体使用见 tensorflow: variable初始化。

将网络中 所有参数 初始化为 0 。

如果所有的参数都是0，那么所有神经元的输出都将是相同的，那在back propagation的时候，gradient相同，weight update也相同。同一层内所有神经元的行为也是相同的。

这显然不可接受。

将参数值（通过高斯分布或均匀分布）随机初始化为 接近0的一个很小的随机数（有正有负），从而使对称失效。

W = tf.Variable(np.random.randn(node_in, node_out)) * 0.001

Note：

这里写图片描述

W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in) ) * 0.001

这里写图片描述

Note：

W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in/2) ) * 0.001

这里写图片描述

Note：

考虑到 非线性映射 (relu) 函数 的影响，将 方差规范化 的分母修改为 np.sqrt(node_in/2)，能让Relu网络更快地收敛。

将 预训练模型的参数 作为新任务上的初始化参数。

根据自身任务数据集而特别定制的参数初始化方法。