为什么选择输出以0为中心的激活函数比较好？

最新推荐文章于 2023-09-18 22:28:27 发布

The way to F2E

最新推荐文章于 2023-09-18 22:28:27 发布

阅读量995

点赞数 5

分类专栏： NLP

本文链接：https://blog.csdn.net/sinat_26717041/article/details/110295264

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

为什么选择输出以0为中心的激活函数比较好？

详细过程

在这里插入图片描述

随意圈出神经网络中的一个单元如图所示，该单元的左半部分是对输入的线性变换即
${w_1}{x_1} + {w_2}{x_2} + ... + {w_n}{x_n} = z$
该单元的右半部分是对线性变换后的值作用激活函数，即
$f\left( z \right) = f$
根据反向传播公式，我们有
$\begin{aligned} \frac{{\partial L}}{{\partial {w_i}}} & = \frac{{\partial L}}{{\partial f}}\frac{{\partial f}}{{\partial z}}\frac{{\partial z}}{{\partial {w_i}}}\\ & = \frac{{\partial L}}{{\partial f}}\frac{{\partial f}}{{\partial z}}{x_i} \end{aligned}$
因为 $x_i$ 为 $\sigma$ 函数的输出，所以对于所有 $i$ 来说， $x_i>0$ ，即 $\dfrac{\partial L}{\partial w_1}$ ， $\dfrac{\partial L}{\partial w_2}$ ，…， $\dfrac{\partial L}{\partial w_n}$ 同号

又因为在梯度下降中
$\begin{aligned} {w_1} \leftarrow {w_1} &- \eta \frac{{\partial L}}{{\partial {w_1}}}\\ {w_2} \leftarrow {w_2} &- \eta \frac{{\partial L}}{{\partial {w_2}}}\\ & \vdots \\ {w_n} \leftarrow {w_n} &- \eta \frac{{\partial L}}{{\partial {w_n}}} \end{aligned}$
这意味着 $w_1$ ， $w_2$ ，…， $w_n$ 只能同向更新，为方便说明取二维解释，假设 $w_1^{\rm{*}}$ ， $w_2^{\rm{*}}$ 为最优解（图中的0,1理解为1,2）

在这里插入图片描述

这种情况下模型只能 $z$ 字型下降收敛逼近最优解，无疑这会增加迭代次数，降低收敛速度

总结

因为输出不以0为中心的激活函数，比如sigmoid函数，其输出都为正，意味着在梯度下降时对某权重1到权重n的导数要么全为正，要么全为负。这会导致梯度下降呈z字型，增加了迭代次数，降低了收敛速度

The way to F2E

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
为什么选择输出以0为中心的激活函数比较好？

为什么选择输出以0为中心的激活函数比较好？详细过程随意圈出神经网络中的一个单元如图所示，该单元的左半部分是对输入的线性变换即w1x1+w2x2+...+wnxn=z{w_1}{x_1} + {w_2}{x_2} + ... + {w_n}{x_n} = zw1x1+w2x2+...+wnxn=z该单元的右半部分是对线性变换后的值作用激活函数，即f(z)=ff\left( z \right) = ff(z)=f根据反向传播公式，我们有∂L∂wi=∂L∂f∂f∂z∂z∂wi=
复制链接

扫一扫