八、改进神经网络的学习方法（4）：权重初始化

最新推荐文章于 2024-07-28 16:01:05 发布

独孤呆博

最新推荐文章于 2024-07-28 16:01:05 发布

阅读量6.1k

点赞数 4

分类专栏：神经网络与深度学习_读书笔记_完结文章标签：神经网络权重初始化深度学习随机变量高斯分布

本文链接：https://blog.csdn.net/dugudaibo/article/details/77318847

版权

这篇博客探讨了原始权重初始化在深度学习中的缺点，导致梯度消失问题，影响学习速度。通过调整权重初始化为均值为0，标准差为输入神经元数量的平方根的高斯分布，可以改善这一状况。实验结果显示，改进后的初始化方法在MNIST数字分类任务中显著提高了训练速度和分类准确率。

摘要由CSDN通过智能技术生成

本博客主要内容为图书《神经网络与深度学习》和National Taiwan University (NTU)林轩田老师的《Machine Learning》的学习笔记，因此在全文中对它们多次引用。初出茅庐，学艺不精，有不足之处还望大家不吝赐教。

1. 原始权重初始化的缺点

之前根据独立高斯随机变量来选择权重和偏置，其被归一化为均值为0，标准差1。但是这样的初始化方法会带来梯度学习算法变慢的缺点，下面举例说明。
假设我们使用一个有大量输入神经元的网络，比如说1000个输入神经元，并且已经使用归一化的高斯分布初始化了连接第一个隐藏层的权重。现在我将注意力集中在这一层的连接权重上，忽略网络其他部分。为了简化，假设我们使用训练输入 $x$ ，其中一半的输入神经元值为0，另一半为1，虽然这种情况很特殊，但是结论是具有普遍适应性的。让我们考虑这一隐藏层的神经元权值输入 $z=\sum_jw_jx_j+b$ 。其中500个项消去了，因为对应的输入为0。所以 $z$ 是遍历总共501个归一化的高斯随机变量的和，包含500个权重项和额外的1个偏置项。因为独立随机变量和的方差是每个独立随机变量方差的和，因此 $z$ 本身是一个均值为0标准差为 $\sqrt{501}\approx22.4$

最低0.47元/天解锁文章

独孤呆博

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
八、改进神经网络的学习方法（4）：权重初始化

本文主要介绍第四种改进神将网络的方法，即权重初始化。首先我们指出采用均值为0、标准差为1的独立高斯随机变量初始化网络的权重会使得权值输入的分布较宽，使得神经元容易输出饱和，进而降低学习速度，因此在第二部分采用0均值，方差根号下输入神经元数量分之一的独立高斯随机变量初始化网络的权重，降低方差，防止学习减速。实验表明这种方法可以提高学习速度，并在有的时候可以提高网络的分类正确率。
复制链接

扫一扫

专栏目录