最全的激活函数详解

最新推荐文章于 2024-05-22 01:30:00 发布

滴水无痕0801

最新推荐文章于 2024-05-22 01:30:00 发布

阅读量812

点赞数 1

分类专栏：深度学习文章标签：激活函数 ReLU Sigmoid Dead ReLU Sigmoid非零均值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huwenxing0801/article/details/84258806

版权

本文深入探讨了神经网络中的激活函数，解释了为什么需要非线性的激活函数，以及理想的激活函数应具备的特性。讨论了Sigmoid的饱和问题和非零均值问题，ReLU的Dead ReLU问题，以及Leaky ReLU和ELU等变种的解决方案。建议在实践中优先考虑ReLU作为激活函数。

摘要由CSDN通过智能技术生成

博客已迁至知乎，本文链接：https://zhuanlan.zhihu.com/p/70821070

前言

这篇文章首先讲了神经网络中为什么要引入激活函数，以及一个激活函数应该具有哪些性质。最后详细地对比了几种常见的激活函数的优缺点，其中重点讲了sigmoid函数的非0均值问题和ReLU函数的Dead ReLU问题。

神经元

图片来自：https://zhuanlan.zhihu.com/p/25110450

上图是一个神经元的设计，其传输模式类似于人类大脑神经元之间的信息传递。在一个神经元中，突触(synapse)接受其它神经元的轴突(axon)传来的信息，通过轴突将信息传递出去。

在这里，所有 $x_i$ 是其它神经元的轴突传来的信息，所有 $w_i$ 是突触接收信息的程度，所有 $w_ix_i$ 则是其它神经元轴突上传来的信息。这些信息经由神经元整合后， $z=\sum w_ix_i+b$ ，再由激活函数 $f (z)$ 激活。

在这里，整合的过程是线性加权的过程，各输入特征 $x_i$ 之间没有相互作用。而激活函数都是非线性的，各输入特征 $x_i$ 在此处相互作用。

在神经网络中，为什么要引入激活函数呢？

简而言之，只有线性的模型表达能力不够，不能拟合非线性函数，激活函数(Activation Function)是非线性的，只要给予网络足够的隐藏单元，线性+激活函数可以无限逼近任意函数(万能近似定理)。

万能近似定理：Hornik et al. 1989; Cybenko, 1989

加与不加的区别：
线性函数 $f (x) = W x + b$ 之后添加激活函数 $g (a)$ ，变成
$a (x) = g (f (x)) = g (W x + b)$

神经网络一般都是多层的，所以拿出前三层(包括输入层)来看：有
$a_2(x) = g_2(f_2(g_1(f_1(x)))$

而如果不加激活函数，这三层是这样的：
$y(x)=f_2(f_1(x))$

将 $f (x)$ 带入上一个表达式：
$y(x)=f_2(f_1(x))=W_2(W_1x+b_1)+b_2=W_2W_1x+(W_2b_1+b_2)$

最低0.47元/天解锁文章

滴水无痕0801

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。