神经网络中激活函数的那些事

最新推荐文章于 2023-04-15 10:08:21 发布

蒹葭杰克

最新推荐文章于 2023-04-15 10:08:21 发布

阅读量247

点赞数

分类专栏：人工智能

本文链接：https://blog.csdn.net/feizxiang3/article/details/101603183

版权

人工智能专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本篇博客内容主要来自andrew NG的课程。
我们知道，当我们构建神经网络时，会再神经元上接个激活函数，我们下面详细讨论这个话题。

首先介绍四种激活函数，它们分别是 Sigmoid tanh Relu Leaky_Relu

在这里插入图片描述

上图中右侧的几何图形，从上到下分别对应，我们刚提到的四种激活函数。其中sigmoid最开始用于逻辑回归，我们知道它把输入映射到 0到1之间，我们在选择激活函数时，如果想要输出映射到0-1之间时，比如二分类问题，Lstm中的gate时，可以使用sigmoid，其他情况，基本上tanh都是一个更好的选择， tanh(双曲正切)把输入映射到-1到1之间，它和sigmoid很相似，但选择它做激活函数，通常效果会好很多。
但是这两种激活函数有一个共有的缺点，当输入值很大或很小时，函数的梯度会很小，趋于0，导致训练非常缓慢。
于是便有了Relu 它的函数形式 $g (z) = m a x (0, z)$ ,所以经过Relu后输出值都是大于等于0的，在某些情况我们想让输出取非负值时，它是一个很好的选择，同时结合图形我们可以知道，在输入大于0时，它的梯度始终为1，所有进行梯度下降算法时，训练的非常快。
但是relu的左半部分梯度始终为0，虽然不影响我们使用它，但有一种新的激活函数来解决这个问题，Leaky Relu左半部分有一个很小的梯度，使它不为0.
目前业界，使用Relu最为常见，但实际场景，你要多尝试多思考。

为什么要使用激活函数？

我们常说的激活函数，其实叫做非线性激活函数。它的目的是对输入做一次非线性变化。
若不适用非线性激活函数，那么无论你的神经网络叠加多少层，No matter how deep it is. 它始终只是对输入做了一次线性变化，跟只有一层是没有区别的。它只能解决线性问题。
而引入非线性变化，目的是为了增强模型的表达能力，能够拟合线性和非线性的复杂问题。

激活函数的导数

我们在做梯度下降时，要先求出关于每个参数的梯度，下面分别给出这四种激活函数的导数形式
1、 Sigmoid : $a^{'} = a (1 - a)$
2、tanh : $a' =1-a^2$
relu 和 Leaky Relu看下图
在这里插入图片描述

蒹葭杰克

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
神经网络中激活函数的那些事

本篇博客内容主要来自andrew NG的课程。我们知道，当我们构建神经网络时，会再神经元上接个激活函数，我们下面详细讨论这个话题。首先介绍四种激活函数，它们分别是 Sigmoid tanh Relu Leaky_Relu上图中右侧的几何图形，从上到下分别对应，我们刚提到的四种激活函数。其中sigmoid最开始用于逻辑回归，我们知道它把输入映射到 0到1之间，我们在选择激活函数时，如果想要...
复制链接

扫一扫