参数初始化策略中提到的零空间理解

在花书《深度学习》中,第8.4节讲到参数的初始化策略,提到:通常来说,最好还是初始化每个单元使其和其他单元计算不同的函数。这或许有助于确保没有输入模式丢失在前向传播的零空间中,没有梯度模式丢失在反向传播的零空间中。

这里的“零空间”是怎么理解的?

根据个人理解,是这样的:

    神经网络的所有参数串联起来可以组成一个向量,可称之为参数向量。参数向量的每个参数的变化可以形成不同的参数向量,所有的参数向量可以张成一个向量空间,该空间可以称之为参数空间。神经网络的训练就是在这个参数空间中寻找一个最佳的参数向量,使神经网络取得最好的效果。参数向量的搜索方式是梯度下降法。

    如果,参数向量中的两个参数被初始化为相同的数值,而且恰巧这两个参数所在的神经元又有相同的输入,相同的计划函数。那么相同的参数就会导致这两个神经元有相同的输出。损失函数的计算方式与梯度的计算方式是一样的,进而这两个参数的更新梯度也就是一样的,即:这两个参数会被执行相同的更新,也即,这两个参数是完全相关的。

    如果一个向量空间中,向量中的两个元素是完全相关的,那么,该向量空间中的所有向量实际上张成的是一个子空间。原本我们期望的参数空间是一个全空间,因为这种情况下,参数有更大的搜索空间。现在参数空间坍缩成了一个子空间,减小了参数的候选范围,这不是我们想要的。

    进而,说到零空间。关于零空间的理解可以参考我之前的博客:零空间。这里只引关键的一点:一个算子的子空间维度(算子的秩)+该算子的零空间维度=该算子的全空间维度。

         参数空间由全空间(假如是n维空间)坍缩为子空间时,算子的秩也由n变为小于n,算子的零空间也由0维提升为大于等于1维,即,输入空间(算子的原像空间)中的许多样本就会落入算子的零空间中。

        对应的,因为神经网络算子不是满秩,进而神经网络算子的逆也不是满秩,所以神经网络算子的逆也存在维度大于等于1的零空间,所以,也会有梯度会落在反向传播算子的零空间中,导致梯度更新失败。

---------------------------------

后记:有些理解或描述不一定准确,望有发现错误者斧正。

如:输入空间时p维,输出空间是q维,那么,神经网络的算子可以用一个维度为p*q的矩阵表示。而共有n个参数,所以参数空间是n维的,进而,神经网络算子矩阵的秩也是n。一般n<<min{p.q}? 所以算子矩阵本身就有零空间?秩n的下降仅仅是增大了零空间?

。。。还是不太清晰

       

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值