[深度学习] Relu层作用

最新推荐文章于 2024-05-10 14:19:37 发布

四月晴

最新推荐文章于 2024-05-10 14:19:37 发布

阅读量3.9w

点赞数 45

分类专栏：计算机视觉机器学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/siyue0211/article/details/81017728

版权

计算机视觉同时被 3 个专栏收录

47 篇文章 3 订阅

订阅专栏

计算机视觉

35 篇文章 4 订阅

订阅专栏

23 篇文章 0 订阅

订阅专栏

为什么引入非线性激励函数

如果不用激励函数，在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你有多少层神经网络，输出的都是输入的线性组合。

激活函数是用来加入非线性因素的，因为线性模型的表达能力不够。
以下，同种颜色为同类数据。某些数据是线性可分的，意思是，可以用一条直线将数据分开。比如下图：
这里写图片描述

这时候你需要通过一定的机器学习的方法，比如感知机算法(perceptron learning algorithm) 找到一个合适的线性方程。

但是有些数据不是线性可分的。比如如下数据：
这里写图片描述
第二组数据你就没有办法画出一条直线来将数据区分开。

这时候有两个办法，第一个办法，是做线性变换(linear transformation)，比如讲x,y变成 $x^2,y^2$ ，这样可以画出圆形。如图所示：
这里写图片描述

如果将坐标轴从x,y变为以 $x^2,y^2$ 为标准，你会发现数据经过变换后是线性可分的了。大致示意图如下：
这里写图片描述

另外一种方法是引入非线性函数。我们来看异或问题(xor problem)。以下是xor真值表
这里写图片描述
这个真值表不是线性可分的，所以不能使用线性模型，如图所示

我们可以设计一种神经网络，通过激活函数来使得这组数据线性可分。
激活函数我们选择阀值函数（threshold function），也就是大于某个值输出1（被激活了），小于等于则输出0（没有激活）。这个函数是非线性函数。

神经网络示意图如下：
这里写图片描述

其中直线上的数字为权重。圆圈中的数字为阀值。第二层，如果输入大于1.5则输出1，否则0；第三层，如果输入大于0.5，则输出1，否则0.
我们来一步步算。

第一层到第二层（阀值1.5）
这里写图片描述
第二层到第三层(阀值0.5)

可以看到第三层输出就是我们所要的xor的答案。
经过变换后的数据是线性可分的（n维，比如本例中可以用平面），如图所示：

总而言之，激活函数可以引入非线性因素，解决线性模型所不能解决的问题。

为什么引入Relu呢
第一，采用sigmoid函数，算激活函数时（指数运算），计算量大。而使用Relu，整个计算节省了很多。
第二，对于深层网络，sigmoid函数反向传播时，很容易出现梯度消失的情况，（sigmoid接近饱和区的时候，变化太缓慢，导数趋于0）从而无法完成深层网络的训练。
第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数之间互相依存的关系，缓解了过拟合的发生。

参考

https://www.zhihu.com/question/22334626

关注

45
点赞
踩
153

收藏

觉得还不错? 一键收藏
5
评论
[深度学习] Relu层作用

为什么引入非线性激励函数如果不用激励函数，在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你有多少层神经网络，输出的都是输入的线性组合。所以我们引入非线性函数作为激励函数。这样深层神经网络就有意义了，不再是输入的线性组合，可以逼近任意函数。最早使用的是sigmoid函数或者tanh函数，输出有界，很容易充当下一层的输入。为什么引入Relu呢第一，采用sigmoid函...
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。