【机器学习】039_合理初始化

最新推荐文章于 2024-07-11 21:12:02 发布

Cyan.__

最新推荐文章于 2024-07-11 21:12:02 发布

阅读量557

点赞数

分类专栏：机器学习文章标签：机器学习深度学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yukiice/article/details/134521050

版权

机器学习专栏收录该内容

45 篇文章 1 订阅

订阅专栏

一、稳定训练

目标：使梯度值在更合理的范围内

常见方法如下：

· 将乘法变为加法

· ResNet：当层数较多时，会加入一些加法进去

· LSTM：如果时序序列较长时，把一些对时序的乘法做加法

· 归一化

· 梯度归一化：把梯度转化为一个均值0、方差1这样的数，从而避免梯度的数值过大或过小

· 梯度裁剪：如果梯度大于一个阈值，就强行拉回来减到一个范围里

· 合理的权重初始化、选取合理的激活函数

二、合理初始化操作

目标：让每层的方差都为一个常数

· 让每层的输出和梯度都看作“随机变量”

· 让输出和梯度的均值和方差都保持一致，那么就可以在每层的传递之间保持，不会出现问题

权重初始化

目标：将参数和权重初始化在一个合理的区间值里，防止参数变化过大或过小导致出现问题

· 当训练开始时，数值更易出现不稳定的问题

· 随机初始的参数可能离最优解很远，更新幅度较陡，损失函数会很大，从而导致梯度较大

· 最优解附近一般较缓，更新幅度会较小

· 假设不定义初始化方法，框架将使用默认初始化，即采用正态分布初始化权重值

· 这种初始化方法对小型神经网络较为有效，但当网络较深时，这种初始化方法往往表现较差

· Xavier初始化：

某些没有非线性的全连接层输出（例如，隐藏变量） $o_i$ 的尺度分布：

· 对于某一层 $n_{in}$ 输入 $x_j$ 以及其相关权重 $w_{ij}$ ，输出由下式给出：

权重 $w_{ij}$ 都是从同一分布中独立抽取的

· 假设该分布具有均值 0 和方差 $\sigma ^2$ （不一定是标准正态分布，只需均值方差存在）

· 假设层 $x_j$ 的输入也具有均值 0 和方差 $\gamma ^2$ ，且独立于 $w_{ij}$ 并彼此独立

可以按下列方式计算 $o_i$ 的均值与方差：

为了保障 $o_i$ 的方差不变化，可设置 $n_{in}\sigma ^2 = 1$ 。

现在考虑反向传播过程，我们面临着类似的问题，尽管梯度是从更靠近输出的层传播的。

使用与前向传播相同的推断，我们可以看到：

· 除非 $n_{out}\sigma ^2=1$ ，否则梯度的方差可能会增大。其中 $n_{out}$ 是该层输出的数量。

· 然而，我们不可能同时满足 $n_{in}\sigma ^2 = 1$ 和 $n_{out}\sigma ^2=1$ 这两个条件。

但我们只需满足：

即可达到要求，这便是Xavier初始化的基础。

通常，Xavier初始化从均值为 0，方差 $\sigma ^2=\frac{2}{n_{in}+n_{out}}$ 的高斯分布中采样权重。

Xavier初始化表明：

· 对于每一层，输出的方差不受输入数量的影响；

· 任何梯度的方差不受输出数量的影响。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】039_合理初始化

【学习笔记】机器学习_039：学习了达到稳定训练所需的操作；为什么要合理初始化参数，以及合理初始化参数的方法。
复制链接

扫一扫

专栏目录

Cyan.__ CSDN认证博客专家 CSDN认证企业博客

码龄2年

47: 原创

41万+: 周排名

8万+: 总排名

9193: 访问

: 等级

506: 积分

23: 粉丝

34: 获赞

15: 评论

38: 收藏

私信

关注

热门文章

分类专栏

Linux 1篇
机器学习 45篇
C++ 1篇

最新评论

【机器学习】044_Kaggle房价预测（机器学习模型实战）
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【机器学习】040_理解偏差与方差
白话机器学习: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
【机器学习】041_模型开发迭代过程
白话机器学习: 内容丰富图文并茂，认真看完收获很大。思路清晰细节满满，支持大佬优质好文。
【机器学习】019_缺失值处理
CSDN-Ada助手: 恭喜你写完了第20篇博客！标题看起来非常有意思，关于缺失值处理的内容一定会对读者有所帮助。你在机器学习领域的持续创作让人佩服，真的很高兴看到你的进步。在下一步的创作中，或许可以考虑分享一些关于特征选择或者模型评估的技巧，这些主题也是非常受欢迎的。再次恭喜你，并期待你未来更多博客的发布！
【机器学习】001_监督学习与非监督学习
CSDN-Ada助手: 非常恭喜你开始了博客创作的旅程！标题看起来非常有吸引力，机器学习的内容一直备受关注。监督学习与非监督学习是机器学习中的两个重要概念，期待你能够深入探讨这两个主题，给读者带来更多的见解和启发。在下一步的创作中，或许可以考虑介绍一些具体的监督学习和非监督学习的算法或示例，这样读者能够更好地理解它们的应用和区别。再次祝贺你的第一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。