读书笔记-深度神经网络参数的初始化

       参数初始化的读书笔记。参考图书:深度学习入门: 基于Python的实现,神经网络与深度学习(NNDL)。参数初始化主要分为:随机初始化预训练初始化。随机初始化直接依赖先验分布来初始化网络参数,而预训练初始化则基于有监督或自监督训练来寻找较好的初始值(便于迁移)。

一、随机初始化

       在训练线性模型时,参数一般被全部初始化为 0。但是,在训练神经网络时,这样做会存在一些问题。

       因为如果参数都为 0,在第一遍前向计算时,所有的隐藏层神经元的激活值都相同在反向传播时,所有权重的更新也都相同这样会导致隐藏层神经元没有区分性(丧失表达能力).这种现象也称为对称权重现象。

       为了打破这个平衡,比较好的方式是对每个参数都随机初始化(Random Initialization),使得不同神经元之间的区分性更好。

1.1 基于固定方差的随机初始化方法

        在基于固定方差的随机初始化方法中(均匀分布或高斯分布),比较关键的是如何设置方差。

        如果参数范围取的太大,会导致输入状态过大。对于 Sigmoid 型激活函数来说,激活值变得饱和,梯度接近于0(梯度小),反向传播时会导致梯度不断变小,即梯度消失问题。 深层网络的梯度消失问题可能会更加严重。

       如果参数范围取的太小,一是会导致神经元的输出过小(激活值趋同),经过多层之后信号就慢慢消失了(学不动)二是还会使得 Sigmoid 型激活函数丢失非线性的能力(表达能力受限).以 Sigmoid 型函数为例,在0附近基本上是近似线性的.这样多层神经网络的优势也就不存在了。

1.2 基于方差缩放的参数初始

         一般而言,参数初始化的区间应该根据神经元的性质进行差异化的设置.如果一个神经元的输入连接很多,它的每个输入连接上的权重就应该小一些,以避免神经元的输出过大(当激活函数为 ReLU 时)或过饱和(当激活函数为Sigmoid函数时)

         在始化一个深度网络时,为缓解梯度消失或爆炸问题,我们尽可能保持每个神经元的输入和输出的方差一致,根据神经元的连接数量来自适应地调整初始化分布的方差,这类方法称为方差缩放(Variance Scaling)。

         Xavier初始化

        使用Xavier初始值后,前一层的节点数越多,要设定为目标节点的初始值的权重尺度就越小使各层的激活值呈现出具有相同广度的分布(将激活值的分布压缩到局部区域且不倾斜,即避免梯度消失,又保持网络的表达能力)。

       虽然在 Xavier 初始化中我们假设激活函数为恒等函数,但是 Xavier 初始化也适用于sigmoid 函数和 Tanh 函数。这是因为神经元的参数和输入的绝对值通常比较小,处于激活函数的线性区间。

1.3、激活函数与随机初始化

        希望激活值出现在合理范围之内。

      1)当激活函数使用ReLU时,权重初始值使用He初始值(因为ReLU的负值区域的值为0,为了使它更有广度,所以需要2倍的系数)

      2)当激活函数使用sigmoid或tanh等S型曲线函数时,初始值使用Xavier初始值

      这是目前的最佳实践 (深度学习入门: 基于Python的实现, p206)。想了解公式的具体细节,可以查看NNDL以及原论文。

      小结:以往在实现模型的时候,例如GCN,一般都采用Xavier初始值和Relu激活函数, 不知道使用He初始化对其效果有影响不。

二、预训练初始化

       不同的参数初始值会收敛到不同的局部最优解。尽管这些局部最优解在训练集上的损失比较接近,但是它们的泛化能力差异很大。一个好的初始值会使得网络收敛到一个泛化能力高的局部最优解。预训练初始化通常会提升模型泛化能力的一种解释是预训练任务起到一定的正则化作用。

       通常情况下,预训练任务可以为监督学习或无监督学习任务。例如,在有标签的ImageNet上预训练ResNet50,然后在其他数据上微调模型参数。值得注意的是,由于无监督的预训练,即自监督(Self-supervised Learning)更易获取大规模的训练数据,因此被广泛采用。

        自监督算法通常分为生成式对比式。个人理解,其目的是通过发掘数据自身隐含的结构或模式来提取足够好特征,换句话说这样预训练学到的模型具备通用的参数。例如,BERT通过Masked词预测和下一个句子预测这种完型填空式预训练,来学习足够好模型(如果模型能预测出数据中缺失的部分,可以认为模型在一定程度上真正建模了数据的内在结构)。

       此外,对比式的预训练方法,通常构造正负样例(不同视图),并最大化样本与正例之间的互信息(相关性),以期望捕捉最显著的特征。预训练模型在目标任务上的学习过程也称为精调(Fine-Tuning)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值