为什么神经网络不能全零初始化

最新推荐文章于 2023-10-17 21:29:51 发布

做技术不可耻

最新推荐文章于 2023-10-17 21:29:51 发布

阅读量994

点赞数 6

文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/qq_40019838/article/details/115879939

版权

为什么神经网络不能全零初始化

相信所有学习过神经网络的人都知道神经网络的权重和偏置不能0初始化，但并不是所有人都知道为什么，在这里我们通过举例子+数学推导的方式解释原因。

假设要学习的神经网络结构如下所示：

在这里插入图片描述

初始化隐层参数为
$\boldsymbol{W}^{(1)}= \left[ \begin{matrix} w^{(1)}_{11} & w^{(1)}_{12} & w^{(1)}_{13}\\ w^{(1)}_{21} & w^{(1)}_{22} & w^{(1)}_{23}\\ \end{matrix} \right]= \left[ \begin{matrix} 0 & 0 & 0\\ 0 & 0 & 0\\ \end{matrix} \right]\\ \boldsymbol{b}^{(1)}= \left[ \begin{matrix} b^{(1)}_{1} & b^{(1)}_{2} \\ \end{matrix} \right]^T= \left[ \begin{matrix} 0 & 0 \\ \end{matrix}\right]^T$
同理，输出层参数为
$\boldsymbol{W}^{(2)}=\left[ \begin{matrix} w^{(2)}_{11} & w^{(2)}_{12}\\ \end{matrix} \right]=\left[ \begin{matrix} 0 & 0 \\ \end{matrix} \right]\\ \boldsymbol{b}^{(2)}=\left[ \begin{matrix} b^{(2)}_{1} \\ \end{matrix} \right]^T=\left[ \begin{matrix} 0 \\ \end{matrix} \right]^T$
隐层得到的输入和隐层的输出为
$\boldsymbol{z}^{(1)}=\boldsymbol{W}^{(1)}\boldsymbol{x}+\boldsymbol{b}^{(1)}\\ \boldsymbol{a}^{(1)}=f(\boldsymbol{z}^{(1)})$
其中 $f$ 为激活函数，为方便之后的计算，写成标量形式
$z^{(1)}_1=w^{(1)}_{11}x_1+w^{(1)}_{12}x_2+w^{(1)}_{13}x_3+b^{(1)}_{1}\\ z^{(2)}_1=w^{(1)}_{21}x_1+w^{(1)}_{22}x_2+w^{(1)}_{23}x_3+b^{(1)}_{2}\\ a^{(1)}_1=f(z^{(1)}_1)\\ a^{(1)}_2=f(z^{(1)}_2)$
输出层的输出为
$\hat{y}=w^{(2)}_{11}a^{(1)}_1+w^{(2)}_{12}a^{(1)}_2+b^{(2)}_{1}$
损失函数记为 $L(y,\boldsymbol{W},\boldsymbol{b})$

由于神经网络初始化为0，所以
$z^{(1)}_1=z^{(1)}_2=0\\ a^{(1)}_1=a^{(1)}_2\\ \hat{y}=0$
令
$\frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial \hat{y}}=\sigma$
第一次反向传播
$\frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(2)}_{11}}= \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial \hat{y}}\frac{\partial \hat{y}}{\partial w^{(2)}_{11}}= \sigma a^{(1)}_1\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(2)}_{12}}= \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial \hat{y}}\frac{\partial \hat{y}}{\partial w^{(2)}_{12}}= \sigma a^{(1)}_2\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial b^{(2)}_{1}}= \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial \hat{y}}\frac{\partial \hat{y}}{\partial b^{(2)}_{1}}= \sigma$
显然损失函数对 $w^{(2)}_{11}$ 和 $w^{(2)}_{12}$ 的偏导数相同，因此一次更新后两者仍然相同。这里不妨假设更新后不为0。

对隐层求偏导
$\frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{11}} =\frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial \hat{y}} \frac{\partial \hat{y}}{\partial a^{(1)}_{1}} \frac{\partial a^{(1)}_{1}}{\partial z^{(1)}_1} \frac{\partial z^{(1)}_1}{\partial w^{(1)}_{11}} =\sigma w^{(2)}_{11}f'(z^{(1)}_1)x_1=0\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{12}} =\sigma w^{(2)}_{11}f'(z^{(1)}_1)x_2=0\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{13}} =\sigma w^{(2)}_{11}f'(z^{(1)}_1)x_3=0\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial b^{(1)}_{1}} =\sigma w^{(2)}_{11}f'(z^{(1)}_1)=0\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{21}} =\sigma w^{(2)}_{12}f'(z^{(1)}_2)x_1=0\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{22}} =\sigma w^{(2)}_{12}f'(z^{(1)}_2)x_2=0\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{23}} =\sigma w^{(2)}_{12}f'(z^{(1)}_2)x_3=0\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial b^{(1)}_{2}} =\sigma w^{(2)}_{12}f'(z^{(1)}_2)=0\\$
因为偏导都为0，所以第一次反向传播隐层参数不更新，仍然为0。

第二次正向传播时，由于隐层参数为0，所以
$z^{(1)}_1=z^{(1)}_2=0\\ a^{(1)}_1=a^{(1)}_2\\$
第二次反向传播
$\frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(2)}_{11}}=\sigma a^{(1)}_1\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(2)}_{12}}=\sigma a^{(1)}_2\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial b^{(2)}_{1}}=\sigma$
损失函数对 $w^{(2)}_{11}$ 和 $w^{(2)}_{12}$ 的偏导数相同，更新后两者仍然相同。

对隐层
$\frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{11}} =\sigma w^{(2)}_{11}f'(z^{(1)}_1)x_1 =\frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{21}} =\sigma w^{(2)}_{12}f'(z^{(1)}_2)x_1\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{12}} =\sigma w^{(2)}_{11}f'(z^{(1)}_1)x_2 =\frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{22}} =\sigma w^{(2)}_{12}f'(z^{(1)}_2)x_2\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{13}} =\sigma w^{(2)}_{11}f'(z^{(1)}_1)x_3 =\frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial w^{(1)}_{23}} =\sigma w^{(2)}_{12}f'(z^{(1)}_2)x_3\\ \frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial b^{(1)}_{1}} =\sigma w^{(2)}_{11}f'(z^{(1)}_1) =\frac{\partial L(y,\boldsymbol{W},\boldsymbol{b})}{\partial b^{(1)}_{2}} =\sigma w^{(2)}_{12}f'(z^{(1)}_2)\\$
那么更新后
$\boldsymbol{w^{(1)}_{1.}}=\boldsymbol{w^{(1)}_{2.}}\\ b^{(1)}_1=b^{(1)}_2$
其实就是隐层所有神经元的参数都相同了。

可以预见的是，由于隐层神经元参数都相同，那么在之后
$z^{(1)}_1=z^{(1)}_2\\ a^{(1)}_1=a^{(1)}_2\\$
反向传播时，仍会出现输出层两个权值相同，隐层神经元参数相同。

换句话说，隐层神经元仅相当于一个节点，这可能直接导致模型失效！

做技术不可耻

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
为什么神经网络不能全零初始化

为什么神经网络不能全零初始化相信所有学习过神经网络的人都知道神经网络的权重和偏置不能0初始化，但并不是所有人都知道为什么，在这里我们通过举例子+数学推导的方式解释原因。假设要学习的神经网络结构如下所示：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D44zSsfI-1618852646746)(C:\Users\liule\AppData\Roaming\Typora\typora-user-images\image-20210419235405721.png)]初始
复制链接

扫一扫