参数初始化策略中提到的零空间理解

最新推荐文章于 2023-11-21 10:45:13 发布

wzg2016

最新推荐文章于 2023-11-21 10:45:13 发布

阅读量499

点赞数 1

本文链接：https://blog.csdn.net/Strive_For_Future/article/details/108158552

版权

在花书《深度学习》中，第8.4节讲到参数的初始化策略，提到：通常来说，最好还是初始化每个单元使其和其他单元计算不同的函数。这或许有助于确保没有输入模式丢失在前向传播的零空间中，没有梯度模式丢失在反向传播的零空间中。

这里的“零空间”是怎么理解的？

根据个人理解，是这样的：

神经网络的所有参数串联起来可以组成一个向量，可称之为参数向量。参数向量的每个参数的变化可以形成不同的参数向量，所有的参数向量可以张成一个向量空间，该空间可以称之为参数空间。神经网络的训练就是在这个参数空间中寻找一个最佳的参数向量，使神经网络取得最好的效果。参数向量的搜索方式是梯度下降法。

如果，参数向量中的两个参数被初始化为相同的数值，而且恰巧这两个参数所在的神经元又有相同的输入，相同的计划函数。那么相同的参数就会导致这两个神经元有相同的输出。损失函数的计算方式与梯度的计算方式是一样的，进而这两个参数的更新梯度也就是一样的，即：这两个参数会被执行相同的更新，也即，这两个参数是完全相关的。

如果一个向量空间中，向量中的两个元素是完全相关的，那么，该向量空间中的所有向量实际上张成的是一个子空间。原本我们期望的参数空间是一个全空间，因为这种情况下，参数有更大的搜索空间。现在参数空间坍缩成了一个子空间，减小了参数的候选范围，这不是我们想要的。

进而，说到零空间。关于零空间的理解可以参考我之前的博客：零空间。这里只引关键的一点：一个算子的子空间维度（算子的秩）+该算子的零空间维度=该算子的全空间维度。

参数空间由全空间（假如是n维空间）坍缩为子空间时，算子的秩也由n变为小于n，算子的零空间也由0维提升为大于等于1维，即，输入空间（算子的原像空间）中的许多样本就会落入算子的零空间中。

对应的，因为神经网络算子不是满秩，进而神经网络算子的逆也不是满秩，所以神经网络算子的逆也存在维度大于等于1的零空间，所以，也会有梯度会落在反向传播算子的零空间中，导致梯度更新失败。

---------------------------------

后记：有些理解或描述不一定准确，望有发现错误者斧正。

如：输入空间时p维，输出空间是q维，那么，神经网络的算子可以用一个维度为p*q的矩阵表示。而共有n个参数，所以参数空间是n维的，进而，神经网络算子矩阵的秩也是n。一般n<<min{p.q}? 所以算子矩阵本身就有零空间？秩n的下降仅仅是增大了零空间？

。。。还是不太清晰

wzg2016

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
参数初始化策略中提到的零空间理解

在花书《深度学习》中，第8.4节讲到参数的初始化策略，提到：通常来说，最好还是初始化每个单元使其和其他单元计算不同的函数。这或许有助于确保没有输入模式丢失在前向传播的零空间中，没有梯度模式丢失在反向传播的零空间中。这里的“零空间”是怎么理解的？根据个人理解，是这样的：神经网络的所有参数串联起来可以组成一个向量，可称之为参数向量。参数向量的每个参数的变化可以形成不同的参数向量，所有的参数向量可以张成一个向量空间，该空间可以称之为参数空间。神经网络的训练就是在这个参数空间中寻找一个最佳的参数..
复制链接

扫一扫