深度学习权重初始化的原则

最新推荐文章于 2025-04-06 20:23:26 发布

UESTC_C2_403

最新推荐文章于 2025-04-06 20:23:26 发布

阅读量3k

点赞数 1

分类专栏：深度学习----Deep Learning

本文链接：https://blog.csdn.net/UESTC_C2_403/article/details/72810059

版权

深度学习模型中权重初始化至关重要，过小可能导致信号衰减，过大则引起信号爆炸。理论建议权重初始化应使均值为0，方差为2除以输入和输出神经元总数，以均匀分布或高斯分布进行初始化。示例展示了符合该原则的权重矩阵。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习权重的初始化的太小，那信号将会在每层传递时逐渐缩小导致难以产生作用，如果权重初始化的太大，那信号将在每层间传递逐渐放大导致发散和失效，根据深度学习大牛的理论说明列，权重应该是满足均值为0，方差为2除以两层神经元个数之和，就是权重链接的那两层。满足的分布就是均匀分布或者高斯分布。

例如：

import tensorflow as tf;
import numpy as np;
import sklearn.preprocessing as pre;
from tensorflow.examples.tutorials.mnist import input_data

def xavier_init(fan_in, fan_out, distribution='Gaussian'):
	if distribution == 'Gaussian':
		return tf.random_normal((fan_in, fan_out), mean=0, stddev=2.0/(fan_in+fan_out), dtype=tf.float32)
	else:
		low = -np.sqrt(6.0 / (fan_in + fan_out))
		high = np.sqrt(6.0 / (fan_in + fan_out))
		return tf.random_uniform((fan_in, fan_out), minval=low, maxval=high, dtype=tf.float32)

with tf.Session() as sess:
	sess.run(tf.initialize_all_variables())
	print sess.run(xavier_init(3, 5))
	print sess.run(xavier_init(3, 5, distributio