【深度学习基础】深度神经网络的参数初始化方法

拥抱AGI

于 2024-06-11 15:55:20 发布

阅读量933

点赞数 25

文章标签：深度学习 dnn 人工智能机器学习 ai 语言模型神经网络

本文链接：https://blog.csdn.net/2401_85375151/article/details/139601348

版权

前言

参数初始化的读书笔记。参考图书：深度学习入门：基于Python的实现，神经网络与深度学习（NNDL）。参数初始化主要分为：随机初始化和预训练初始化。随机初始化直接依赖先验分布来初始化网络参数，而预训练初始化则基于有监督或自监督训练来寻找较好的初始值（便于迁移）。

一、随机初始化

在训练线性模型时，参数一般被全部初始化为 0。但是，在训练神经网络时，这样做会存在一些问题。

因为如果参数都为 0，在第一遍前向计算时，所有的隐藏层神经元的激活值都相同；在反向传播时，所有权重的更新也都相同，这样会导致隐藏层神经元没有区分性（丧失表达能力）．这种现象也称为对称权重现象。

为了打破这个平衡，比较好的方式是对每个参数都随机初始化（Random Initialization），使得不同神经元之间的区分性更好。

1.1 基于固定方差的随机初始化方法

在基于固定方差的随机初始化方法中（均匀分布或高斯分布），比较关键的是如何设置方差。

**如果参数范围取的太大，会导致输入状态过大。**对于 Sigmoid 型激活函数来说，激活值变得饱和，梯度接近于0（梯度小），反向传播时会导致梯度不断变小，即梯度消失问题。 深层网络的梯度消失问题可能会更加严重。

如果参数范围取的太小，一是会导致神经元的输出过小（激活值趋同），经过多层之后信号就慢慢消失了(学不动)；二是还会使得 Sigmoid 型激活函数丢失非线性的能力（表达能力受限）．以 Sigmoid 型函数为例，在0附近基本上是近似线性的．这样多层神经网络的优势也就不存在了。

1.2 基于方差缩放的参数初始

一般而言，参数初始化的区间应该根据神经元的性质进行差异化的设置．如果一个神经元的输入连接很多，它的每个输入连接上的权重就应该小一些，以避免神经元的输出过大（当激活函数为 ReLU 时）或过饱和（当激活函数为Sigmoid函数时）

在始化一个深度网络时，为缓解梯度消失或爆炸问题，我们尽可能保持每个神经元的输入和输出的方差一致，根据神经元的连接数量来自适应地调整初始化分布的方差，这类方法称为方差缩放（Variance Scaling）。

Xavier初始化

    使用Xavier初始值后，**前一层的节点数越多，要设定为目标节点的初始值的权重尺度就越小**。**使各层的激活值呈现出具有相同广度的分布**（**将激活值的分布压缩到局部区域且不倾斜，即避免梯度消失，又保持网络的表达能力**）。

虽然在 Xavier 初始化中我们假设激活函数为恒等函数，但是 Xavier 初始化也适用于sigmoid 函数和 Tanh 函数。这是因为神经元的参数和输入的绝对值通常比较小，处于激活函数的线性区间。

1.3、激活函数与随机初始化

希望激活值出现在合理范围之内。

1）当激活函数使用ReLU时，权重初始值使用He初始值（因为ReLU的负值区域的值为0，为了使它更有广度，所以需要2倍的系数）
2）当激活函数使用sigmoid或tanh等S型曲线函数时，初始值使用Xavier初始值。

这是目前的最佳实践 (深度学习入门：基于Python的实现， p206)。想了解公式的具体细节，可以查看NNDL以及原论文。

小结：以往在实现模型的时候，例如GCN，一般都采用Xavier初始值和Relu激活函数，不知道使用He初始化对其效果有影响不。

二、预训练初始化

不同的参数初始值会收敛到不同的局部最优解。尽管这些局部最优解在训练集上的损失比较接近，但是它们的泛化能力差异很大。一个好的初始值会使得网络收敛到一个泛化能力高的局部最优解。预训练初始化通常会提升模型泛化能力的一种解释是预训练任务起到一定的正则化作用。

通常情况下，预训练任务可以为监督学习或无监督学习任务。 例如，在有标签的ImageNet上预训练ResNet50，然后在其他数据上微调模型参数。值得注意的是，由于无监督的预训练，即自监督（Self-supervised Learning）更易获取大规模的训练数据，因此被广泛采用。

自监督算法通常分为 生成式 和对比式。 个人理解，其目的是通过发掘数据自身隐含的结构或模式来提取足够好特征，换句话说这样预训练学到的模型具备通用的参数。例如，BERT通过Masked词预测和下一个句子预测这种完型填空式预训练，来学习足够好模型（如果模型能预测出数据中缺失的部分，可以认为模型在一定程度上真正建模了数据的内在结构）。

此外，对比式的预训练方法，通常构造正负样例（不同视图），并最大化样本与正例之间的互信息（相关性），以期望捕捉最显著的特征。预训练模型在目标任务上的学习过程也称为精调（Fine-Tuning）。

最后的最后

感谢你们的阅读和喜欢，我收藏了很多技术干货，可以共享给喜欢我文章的朋友们，如果你肯花时间沉下心去学习，它们一定能帮到你。

因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

五、面试资料

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

拥抱AGI

关注

25
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
【深度学习基础】深度神经网络的参数初始化方法

参数初始化的读书笔记。参考图书：深度学习入门：基于Python的实现，神经网络与深度学习（NNDL）。参数初始化主要分为：**随机初始化**和**预训练初始化**。随机初始化直接依赖先验分布来初始化网络参数，而预训练初始化则基于有监督或自监督训练来寻找较好的初始值（便于迁移）。
复制链接

扫一扫