为什么使用Relu函数

最新推荐文章于 2024-07-09 23:15:27 发布

青竹aaa

最新推荐文章于 2024-07-09 23:15:27 发布

阅读量691

点赞数

分类专栏：深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36575363/article/details/109561337

版权

深度学习专栏收录该内容

38 篇文章 8 订阅

订阅专栏

考研人信息库

此公众号会发表计算机考研（初复试信息）、夏令营等资料，方便考研人对信息的获取，节约自身查找资料的时间

这个问题有点像问，吃涮羊肉为什么蘸芝麻酱？

标准答案是：10亿AI调参侠都在用，用了都说好。

但如果我们稍微深究一下，会更加深记忆，也增加对深度学习过程的理解。

首先我们要明白，为什么要蘸东西吃？即：

为什么要使用sigmoid，tanh，ReLU等非线性函数？

这个原因大家都知道，为了增加非线性呗！

深度学习的目的是用一堆神经元堆出一个函数大致的样子，然后通过大量的数据去反向拟合出这个函数的各个参数，最终勾勒出函数的完整形状。

那如果激活函数只是线性函数，那一层层的线性函数堆起来还是线性的，这年头线性函数能干啥呀？

肯定不行，这样整个网络表现能力有限，所以要引入非线性的激活函数进来。

就是铅笔不够画的，咱得上带颜色、笔触更丰富的油画笔。

那为什么用ReLU呢？

我们先看ReLU和他的老对手sigmoid长什么样：

ReLU函数：

Sigmoid函数：

对比这俩函数能看出来，sigmoid有一个“梯度消失”的问题。

梯度消失什么意思呢？就是我们希望对每个神经元，激励函数都能尽量区分出z值变化，这样每个神经元的表达能力更强，但sigmoid明显在|z|>4的区间的梯度就不够看了，即它的梯度消失了。

相比之下，ReLU输出就很稳定，因为他z>0区间就是一个线性函数！不存在sigmoid的梯度消失的问题。

另一个ReLU很给力的地方就是稀疏度问题。就是我们希望每个神经元都能最大化的发挥它筛选的作用，符合某一个特征的中间值，使劲儿放大；不符合的，一刀切掉。

反观sigmoid就要黏糊的多。这个函数是很对称很美，但它面对负的z值仍然剪不断理还乱，会输出一个小的激励值（tanh会好一些但仍不能避免），形成所谓的“稠密表示”。

最后的最后，ReLU运算速度快，这个很明显了，max肯定比幂指数快的多。

天下武功，唯快不破。

当然，ReLU并不是终点，对激励函数的研究在行业内非常活跃，这里也不展开了。

转载自知乎：https://zhuanlan.zhihu.com/p/46255482

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
为什么使用Relu函数

此公众号会发表计算机考研（初复试信息）、夏令营等资料，方便考研人对信息的获取，节约自身查找资料的时间这个问题有点像问，吃涮羊肉为什么蘸芝麻酱？标准答案是：10亿AI调参侠都在用，用了都说好。但如果我们稍微深究一下，会更加深记忆，也增加对深度学习过程的理解。首先我们要明白，为什么要蘸东西吃？即：为什么要使用sigmoid，tanh，ReLU等非线性函数？这个原因大家都知道，为了增加非线性呗！深度学习的目的是用一堆神经元堆出一个函数大致的样子，然后通过大量的数据去反向拟合出这个函..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。