理解神经网络中激活函数的作用

_pinnacle_

已于 2023-06-23 15:44:39 修改

阅读量358

点赞数

分类专栏： PR & ML 文章标签：神经网络机器学习人工智能激活函数

于 2023-05-14 10:21:24 首次发布

本文链接：https://blog.csdn.net/u010165147/article/details/130665007

版权

PR & ML 专栏收录该内容

19 篇文章 9 订阅

订阅专栏

本文探讨了激活函数在神经网络中的作用，特别是sign和ReLU函数如何构造超平面进行分类。通过分析，证明了ReLU函数确实构造的是确定的超平面，并讨论了sigmoid函数在隐藏层和分类层的不同表现。此外，还提到了多个节点如何组合形成超平面组合，以及不同激活函数的特性，如输出范围和非线性变换的影响。

摘要由CSDN通过智能技术生成

概述

理解激活函数的作用能更好的解释神经网络的运行逻辑，在以前的章节中只简单概述了激活函数的作用，但是其实结论是比较草率的，这篇文章希望能谨慎的证明这些结论。

sign 激活函数

一般我们都直接在分类的全连接层，而不是隐藏层去加 $s i g n$ 函数作为分类的的激活，带线性层与 $s i g n$ 激活函数的节点为
$sign(w^Tx+b) =\left\{\begin{matrix} 1&,w^Tx+b>0 \\ -1&,w^Tx+b\leqslant 0 \end{matrix}\right.$ 通过其公式，我们会很容易的看到超平面 $H=\{x \mid w^Tx+b = 0\}$ ，但是它是否是 $s i g n$ 函数所构造出来的超平面呢？

我们先假设 $H=\{x \mid w^Tx+b = 0\}$ 是其构造的超平面，根据超平面的特性，当 $w^Tx+b>0$ 时， $x$ 一定在超平面所划分的正半空间 $x^+$ 中，同理 $w^Tx+b< 0$ ， $x$ 一定在超平面所划分的负半空间 $x^-$ 中。我们将 $x^+$ 设置为标签1，而将 $x^-$ 及超平面上的点共同设置为标签-1。这个时候我们可以使用任意函数 $f (x)$ 来表示该划分
$f(w^Tx+b) =\left\{\begin{matrix} 1&,w^Tx+b>0 \\ -1&,w^Tx+b\leqslant 0 \end{matrix}\right.$ 所以我们可以看到，两者形式是等价的，意味着只要拥有这种形式的函数其所构造的超平面都是 $H=\{x \mid w^Tx+b = 0\}$ ，而且标签是什么是不重要的可以用其他数值任意替换。

所以， $s i g n$ 构造出了超平面 $H=\{x \mid w^Tx+b = 0\}$ ，或者可以这样说由 $s i g n$ 的定义构造出了超平面 $H=\{x \mid w^Tx+b = 0\}$ ，我们可以设置
$sign(w^Tx+b) =\left\{\begin{matrix} 1&,w^Tx+b>c \\ -1&,w^Tx+b\leqslant c \end{matrix}\right.$ 这时超平面发生了位移，即超平面变为了 $H=\{x \mid w^Tx+b -c = 0\}$ ，所以超平面是依定义构造出来的。

ReLU激活函数

带线性层与 $R e LU$ 激活函数的节点可以用数学公式表示为如下形式
$ReLU(w^Tx+b) =\left\{\begin{matrix} w^Tx+b&,w^Tx+b>0 \\ 0&,w^Tx+b\leqslant 0 \end{matrix}\right.$ 这个和上面的 $s i g n$ 激活函数有一些区别，但是其实也是和上面等价的形式。既然我们有疑问，那么可以通过其他方式来证明 $R e LU$ 所构造的超平面也是 $H=\{x \mid w^Tx+b = 0\}$

我们可以假设，其构造的超平面为 $H=\{x \mid w^Tx+b - c= 0\}$ ，其中 $c$ 为任意的实数，这里 $c$ 前面的负号只是为了形式的整洁。

显然，当 $R e LU$ 节点有大于0的输出时 $y=w^Tx+b$ 此时 $w^Tx+b>0$ ，而其在超平面的一侧，所以 $w^Tx+b - c> 0$ ，可以推导出 $w^Tx+b>c$ ，所以 $c\geqslant0$ ；

同理 $R e LU$ 节点输出为0时 $y = 0$ 此时 $w^Tx+b< 0$ 或 $w^Tx+b = 0$ ；

当 $w^Tx+b< 0$ 时，其在超平面的另一侧，所以 $w^Tx+b - c< 0$ ，可以推导出 $w^Tx+b<c$ ，所以 $c\leqslant 0$ ；

当 $w^Tx+b= 0$ 时，其在超平面的一侧或在超平面上，所以 $w^Tx+b - c\leqslant 0$ 或 $w^Tx+b - c\geqslant 0$ ，可以推导出 $w^Tx+b\leqslant c$ 或 $w^Tx+b\geqslant c$ ，所以推出 $\leqslant 0$ 或 $\geqslant 0$ ；

综上，当且仅当 $c = 0$ 时，以上条件全部满足；所以 $R e LU$ 构造的超平面是 $H=\{x \mid w^Tx+b = 0\}$ 。而 $R e LU$ 的这一特性在神经网络的分析中有重要作用，即其构造的超平面是确定的。 这个特性也说明了 $R e LU$ 输出为非0时，其数据全部来自超平面的一侧，且输出数据经过了 $w, b$ 的线性变换。

证明的一些细节的解释

为什么 $w^Tx+b< 0$ 或 $w^Tx+b> 0$ 时，一定在超平面的一侧？因为根据超平面的的定义，在超平面的一侧必然要求其值只能为正或者为负，不能两者都存在，所以这两者只能各自在超平面的一侧。

细心的读者也发现了，可以将 $w^Tx+b> 0$ 的数据放到 $w^Tx+b - c< 0$ 的一侧，这样会推出 $w^Tx+b < c$ ，此时 $c > 0$ 且 $c\ne 0$ ；同理将 $w^Tx+b< 0$ 的数据放到 $w^Tx+b - c> 0$ 的一侧，推出 $c < 0$ 且 $c\ne 0$ ；所以 $c$ 值是发散的，即不存在这样的 $c$ 值同时满足 $c > 0$ 且 $c < 0$ ；所以该逻辑不成立。

线性变换的另一个视角

我们知道点到分离超平面 $H=\{x \mid w^Tx+b = 0\}$ 的距离公式为：
$\frac{\mid w^Tx+b\mid }{\parallel w\parallel }$ 可以推出
$\mid w^Tx+b\mid=d\parallel w\parallel$ 而经过 $R e LU$ 输出的数据必然大于0，所以
$w^Tx+b=d\parallel w\parallel$ 所以我们可以说，经过线性变换与 $R e LU$ 后的输出，只与点到超平面的距离及范数相关；对同一节点，其差异只与点到超平面的距离相关。

多节点的作用

由多个带线性层与 $R e LU$ 激活函数的节点，不再是单个节点这种简单的得到一个超平面的逻辑了，而是组合逻辑，即使构造的超平面编排(Hyperplane Arrangement)或超平面组合，将输入空间划分为多个线性区域（Linear Regions）及区域切片与映射了，可以查看本系列的其他文章，或者查看参考文献中的文章。

sigmoid激活函数

带线性层与 $s i g m o i d$ 激活函数的节点可以用数学公式表示为如下形式
$\sigma(w^Tx+b) =\frac{1}{1+exp(-(w^Tx+b))}$ 事实上在神经网络的隐藏节点，我们无法像 $R e LU$ 那样，确切的说其构造的超平面是什么。虽然我们可以这样构造，如
$\sigma(w^Tx+b) = \left\{\begin{matrix} \sigma(w^Tx+b) &,w^Tx+b>0 \\ \sigma(w^Tx+b) &,w^Tx+b\leqslant 0 \end{matrix}\right.$ 但是实际上是没有意义的，因为其为同胚映射，或者简单的说在其定义域与值域都是连续的，所以也可以这样构造
$\sigma(w^Tx+b) = \left\{\begin{matrix} \sigma(w^Tx+b) &,w^Tx+b-c>0 \\ \sigma(w^Tx+b) &,w^Tx+b-c\leqslant 0 \end{matrix}\right.$ 这个 $c$ 值是多少是无法直接确定的，虽然我们知道 $w^Tx+b=0$ 是sigmoid值域的一个对称超平面。