神经网络激活函数汇总（Sigmoid、tanh、ReLU、LeakyReLU、pReLU、ELU、maxout）

江户川柯壮

已于 2023-04-06 17:13:31 修改

阅读量6.5w

点赞数 51

分类专栏：深度学习深度学习专题文章标签：神经网络机器学习深度学习

于 2018-04-22 21:53:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/edogawachia/article/details/80043673

版权

深度学习同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

深度学习专题

17 篇文章 2 订阅

订阅专栏

神经网络激活函数汇总（Sigmoid、tanh、ReLU、LeakyReLU、pReLU、ELU、maxout）

常规 sigmoid 和 tanh

sigmoid

这里写图片描述

这里写图片描述

特点：可以解释，比如将0-1之间的取值解释成一个神经元的激活率（firing rate）

缺陷：

有饱和区域，是软饱和，在大的正数和负数作为输入的时候，梯度就会变成零，使得神经元基本不能更新。
只有正数输出（不是zero-centered），这就导致所谓的zigzag现象：

这里写图片描述

详细说明：

这里写图片描述

3 . 计算量大（exp）

tanh

tanh函数定义如下：

这里写图片描述

激活函数形状：

这里写图片描述

tanh和sigmoid函数是具有一定的关系的，可以从公式中看出，它们的形状是一样的，只是尺度和范围不同。

tanh是zero-centered，但是还是会饱和。

ReLU 大家族

ReLU

这里写图片描述

CNN中常用。对正数原样输出，负数直接置零。在正数不饱和，在负数硬饱和。relu计算上比sigmoid或者tanh更省计算量，因为不用exp，因而收敛较快。但是还是非zero-centered。

relu在负数区域被kill的现象叫做dead relu，这样的情况下，有人通过初始化的时候用一个稍微大于零的数比如0.01来初始化神经元，从而使得relu更偏向于激活而不是死掉，但是这个方法是否有效有争议。

LeakyReLU

这里写图片描述

为了解决上述的dead ReLU现象。这里选择一个数，让负数区域不在饱和死掉。这里的斜率都是确定的。

PReLU

parametric rectifier：

f(x) = max(ax,x)

但是这里的a不是固定下来的，而是可学习的。

ELU

这里写图片描述

具有relu的优势，且输出均值接近零，实际上prelu和LeakyReLU都有这一优点。有负数饱和区域，从而对噪声有一些鲁棒性。可以看做是介于relu和LeakyReLU之间的一个东西。当然，这个函数也需要计算exp，从而计算量上更大一些。

大一统：Maxout

maxout是通过分段线性函数来拟合所有可能的凸函数来作为激活函数的，但是由于线性函数是可学习，所以实际上是可以学出来的激活函数。具体操作是对所有线性取最大，也就是把若干直线的交点作为分段的界，然后每一段取最大。

maxout可以看成是relu家族的一个推广。

缺点在于增加了参数量。

更多相关见以前整理的一篇：深度学习中的各种tricks_2.0_maxout

2018年04月22日21:53:22

江户川柯壮

关注

51
点赞
踩
312

收藏

觉得还不错? 一键收藏
10
评论
神经网络激活函数汇总（Sigmoid、tanh、ReLU、LeakyReLU、pReLU、ELU、maxout）

神经网络激活函数汇总（Sigmoid、tanh、ReLU、LeakyReLU、pReLU、ELU、maxout）常规 sigmoid 和 tanhsigmoid 特点：可以解释，比如将0-1之间的取值解释成一个神经元的激活率（firing rate）缺陷：有饱和区域，是软饱和，在大的正数和负数作为输入的时候，梯度就会变成零，使得神经元基本不能更新。只有...
复制链接

扫一扫

专栏目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。