吴恩达深度学习 —— 3.7 为什么需要非线性激活函数

最新推荐文章于 2022-01-27 20:55:10 发布

然后就去远行吧

最新推荐文章于 2022-01-27 20:55:10 发布

阅读量1.4k

点赞数 1

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/qq_37388085/article/details/103285185

版权

吴恩达深度学习专栏收录该内容

61 篇文章 30 订阅

订阅专栏

事实证明，要让神经网络能够计算出有趣的函数，必须使用非线性激活函数。

如下图所示是神经网络正向传播的方程，为什么不能直接去掉 $a^{[1]}=g^{[1]}(z^{[1]})$ 呢？去掉函数 $g (z)$ ，然后令 $a^{[1]}=z^{[1]}$ ，或者令 $g^{[1]}=z^{[1]}$ ，这有时候叫线性激活函数，更学术一点的名字是，恒等激活函数，因为它们就直接把输入值输出了。
在这里插入图片描述
为了说明问题，我们看看 $a^{[2]}=z^{[2]}$ 会怎么样。事实证明，如果你这样做，这个模型的输出y或者 $\hat{y}$ 只不过是输入特征x的线性组合。

如果要用线性激活函数或者叫恒等激活函数，那么神经网络只是把输入线性组合再输出。在深层神经网络中，事实证明，如果你使用线性激活函数，或者如果没有激活函数，无论神经网络有多少层，一直在做的只是计算线性激活函数，所以还不如直接去掉全部隐藏层。

事实证明，如果在图中的神经网络中，在隐藏层中使用线性激活函数，在输出层中使用sigmoid函数，那这个模型的复杂度和没有任何隐藏层的标准逻辑回归是一样的。要点在于，线性隐藏层一点用都没有，因为两个线性函数的组合本身就是线性函数。所以除非引入非线性，否则无法计算更有趣的函数，网络层数再多也不行。只有一个地方可以使用线性激活函数 $g (z) = z$ ，就是如果你要机器学习的是回归问题，回归问题中y是一个实数。比如说，想预测房地产价格，那么y不是0或者1，而是一个实数，那么在这里用线性激活函数也许可行，所以你的输出y也是一个实数，从负无穷到正无穷。

但是神经网络中的隐藏单元不能用线性激活函数，他们可以用Tanh或者ReLU或者其它的非线性激活函数。所以唯一可以用线性激活函数的地方通常就是输出层，除了这种情况，会在隐藏层用线性激活函数的，可能除了与压缩有关的一些非常特殊的情况。

然后就去远行吧

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
吴恩达深度学习 —— 3.7 为什么需要非线性激活函数

事实证明，要让神经网络能够计算出有趣的函数，必须使用非线性激活函数。如下图所示是神经网络正向传播的方程，为什么不能直接去掉a[1]=g[1](z[1])a^{[1]}=g^{[1]}(z^{[1]})a[1]=g[1](z[1])呢？去掉函数g(z)g(z)g(z)，然后令a[1]=z[1]a^{[1]}=z^{[1]}a[1]=z[1]，或者令g[1]=z[1]g^{[1]}=z^{[1]}g...
复制链接

扫一扫