深度学习之参数初始化

为什么要学习参数初始化?

我们都知道,神经网络模型一般是通过随机梯度下降法来训练模型、学习参数。

我们在使用随机梯度下降法的时候需要先给参数赋初值,那么合理正确地初始化参数,能够影响到算法的收敛性、减小泛化误差等。 

如果使用的框架是TensorFlow,那么在看完博客后可以看看下面这篇博客,整理了对变量进行初始化的各种函数API。

下面整理参数初始化的方式时只给出了公式,根据公式套用下篇博客函数来实现代码。

(链接)使用TensorFlow对变量进行初始化

参数初始化的方式:

一、全零初始化  (Zero Initialization)

所谓全零初始化就是把网络中的所有参数都初始化为零,这样做可以使初始化全零时参数的期望和网络稳定时参数的期望一致为零。

但是,这样做之后,网络中不同的神经元的输出一定全部相同,相同输出则导致梯度更新完全一样,那么所有的参数在更新之后仍然是全部相同的,那么也就是说,网络神经元将毫无能力对此作出改变,从而无法训练模型。

 

二、随机初始化  (Random Initialization)

随机初始化有两种:

  • 正态分布初始化:又称高斯分布初始化,参数从一个固定均值和固定方差的高斯分布进行随机初始化。
    \large W_{i,j}\sim N(\mu,\sigma)
  • 均匀分布初始化:在一个给定区间 [ -r,r ] 内采用均匀分布来初始化参数。
    \large W_{i,j}\sim U(-r,r)

 

三、标准初始化(Standard initialization)

~ 相比于 sigmoid 激活函数,标准初始化方法更适用于 tanh 激活函数。

(n为输入,m为输出(下同))

  • 正态分布:

    标准正态初始化方法通过对方差乘以一个系数确保每层神经元的输出具有相同的方差,提高训练收敛速度。

    \large W_{i,j}\sim N(0,\sqrt{\frac{1}{n}} )
  • 均匀分布:

    标准均匀初始化方法保证了激活函数的输入值的均值为0,方差为常量 \frac{1}{3},和网络的层数和神经元的数量无关。

    \large W_{i,j}\sim U(-\sqrt{\frac{1}{n}},\sqrt{\frac{1}{n}})

 

四、Xavier初始化  (Xavier Initialization)

~ 适用于 Losgistic 和 tanh 激活函数

  • 正态分布:
    \large W_{i,j}\sim N(0,\sqrt{\frac{2}{n+m}} )
  • 均匀分布:
    \large W_{i,j}\sim U(-\sqrt{\frac{6}{n+m}},\sqrt{\frac{6}{n+m}})

 

五、He初始化  (He Initialization)

~ 更适用于 ReLu 激活函数

  • 正态分布:
    \large W_{i,j}\sim N(0,\sqrt{\frac{2}{n}})
  • 均匀分布:
    \large W_{i,j}\sim U(-\sqrt{\frac{6}{n}},\sqrt{\frac{6}{n}})

六、迁移学习初始化 (Pre-train Initialization)

将 预训练模型的参数 作为新任务上的初始化参数。

七、数据敏感初始化

根据自身任务数据集而特别定制的参数初始化方法。

 

参考文献:

  1. 《解析卷积神经网络》魏秀参
  2. 《神经网络与深度学习》邱锡鹏
  3.  深度学习之参数初始化策略
  4.  深度学习: 参数初始化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值