吴恩达深度学习 —— 3.7 为什么需要非线性激活函数

事实证明,要让神经网络能够计算出有趣的函数,必须使用非线性激活函数。

如下图所示是神经网络正向传播的方程,为什么不能直接去掉 a [ 1 ] = g [ 1 ] ( z [ 1 ] ) a^{[1]}=g^{[1]}(z^{[1]}) a[1]=g[1](z[1])呢?去掉函数 g ( z ) g(z) g(z),然后令 a [ 1 ] = z [ 1 ] a^{[1]}=z^{[1]} a[1]=z[1],或者令 g [ 1 ] = z [ 1 ] g^{[1]}=z^{[1]} g[1]=z[1],这有时候叫线性激活函数,更学术一点的名字是,恒等激活函数,因为它们就直接把输入值输出了。
在这里插入图片描述
为了说明问题,我们看看 a [ 2 ] = z [ 2 ] a^{[2]}=z^{[2]} a[2]=z[2]会怎么样。事实证明,如果你这样做,这个模型的输出y或者 y ^ \hat{y} y^只不过是输入特征x的线性组合。

如果要用线性激活函数或者叫恒等激活函数,那么神经网络只是把输入线性组合再输出。在深层神经网络中,事实证明,如果你使用线性激活函数,或者如果没有激活函数,无论神经网络有多少层,一直在做的只是计算线性激活函数,所以还不如直接去掉全部隐藏层。

事实证明,如果在图中的神经网络中,在隐藏层中使用线性激活函数,在输出层中使用sigmoid函数,那这个模型的复杂度和没有任何隐藏层的标准逻辑回归是一样的。要点在于,线性隐藏层一点用都没有,因为两个线性函数的组合本身就是线性函数。所以除非引入非线性,否则无法计算更有趣的函数,网络层数再多也不行。只有一个地方可以使用线性激活函数 g ( z ) = z g(z)=z g(z)=z,就是如果你要机器学习的是回归问题,回归问题中y是一个实数。比如说,想预测房地产价格,那么y不是0或者1,而是一个实数,那么在这里用线性激活函数也许可行,所以你的输出y也是一个实数,从负无穷到正无穷。

但是神经网络中的隐藏单元不能用线性激活函数,他们可以用Tanh或者ReLU或者其它的非线性激活函数。所以唯一可以用线性激活函数的地方通常就是输出层,除了这种情况,会在隐藏层用线性激活函数的,可能除了与压缩有关的一些非常特殊的情况。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值