【深度学习】深入理解ReLU(Rectifie Linear Units)激活函数

最新推荐文章于 2024-08-19 17:44:41 发布

Guo_Yaohua

最新推荐文章于 2024-08-19 17:44:41 发布

阅读量633

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Guo_Yaohua/article/details/106294752

版权

本文深入探讨ReLU激活函数，分析其在深度学习中的重要性。从传统激活函数如Sigmoid的优缺点出发，讨论ReLU如何通过引入稀疏性解决梯度消失问题，提升模型训练速度。ReLU的贡献包括自动引入稀疏性，加速特征学习，以及在某些情况下优于预训练的效果。在Theano中，ReLU可通过T.maximum(0,x)实现。" 118056844,11081338,单链表插入操作详解,"['数据结构', '链表', '指针']

摘要由CSDN通过智能技术生成

论文参考：Deep Sparse Rectifier Neural Networks (很有趣的一篇paper）

Part 0：传统激活函数、脑神经元激活频率研究、稀疏激活性

0.1 一般激活函数有如下一些性质：

非线性：当激活函数是线性的，一个两层的神经网络就可以基本上逼近所有的函数。但如果激活函数是恒等激活函数的时候，即f(x)=x，就不满足这个性质，而且如果MLP(多层感知机)使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的；
可微性：当优化方法是基于梯度的时候，就体现了该性质；
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数；
f(x)≈x：当激活函数满足这个性质的时候，如果参数的初始化是随机的较小值，那么神经网络的训练将会很高效；如果不满足这个性质，那么就需要详细地去设置初始值；
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的Learning Rate。

0.2 传统Sigmoid系激活函数

传统神经网络中最常用的两个激活函数，Sigmoid系（Logistic-Sigmoid、Tanh-Sigmoid）被视为神经网络的核心所在。

从数学上来看，非线性的Sigmoid函数对中央区的信号增益较大，对两侧区的信号增益小，在信号的特征空间映射上，有很好的效果。

从神经科学上来看，中央区酷似神经元的兴奋态，两侧区酷似神经元的抑制态，因而在神经网络学习方面，可以将重点特征推向中央区，将非重点特征推向两侧区。

无论是哪种解释，看起来都比早期的线性激活函数(y=x),阶跃激活函数(-1/1,0/1)高明了不少。

0.3 近似生物神经激活函数：Softplus&ReLu

2001年，神经科学家Dayan、Abott从生物学角度，模拟出了脑神经元接受信号更精确的激活模型，该模型如左图所示：

这个模型对比Sigmoid系主要变化有三点：① 单侧抑制　　 ② 相对宽阔的兴奋边界　　 ③ 稀疏激活性 （重点，可以看到红框里前端状态完全没有激活）

同年，Charles Dugas等人在做正数回归预测

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。