从函数逼近角度理解神经网络、残差连接与激活函数

_pinnacle_

已于 2024-06-29 17:13:01 修改

阅读量1.1k

点赞数 23

分类专栏： PR & ML 文章标签：神经网络函数逼近残差连接激活函数

于 2024-06-23 19:57:02 首次发布

本文链接：https://blog.csdn.net/u010165147/article/details/139809233

版权

PR & ML 专栏收录该内容

19 篇文章 9 订阅

订阅专栏

概述

最近思考激活函数的时候，突然想到神经网络中残差连接是不是和函数的泰勒展开很像，尤其是在激活函数 $f(x)=x^2$ 时(这个激活函数想法来源于 $f(x)=ReLU^2(x)[3]$ )，所以验证了一下就顺便写下来了，本文抛砖引玉，如果有建议或更好的想法可以写到评论区。

常见函数的泰勒展开

这里仅简单写几个函数的泰勒公式，其他可查看参考文章[1]
$=x−\frac{x^3}{3!}+\frac{x^5}{5!} −\frac{x^7}{7!} +o(x^7)$ $cos(x)=1−\frac{x^2}{2!} +\frac{x^4}{4!} −\frac{x^6}{6!}+o(x^6)$ $e^x=1+x+\frac{x^2}{2!}+\frac{x^3}{3!}+\frac{x^4}{4!}+\frac{x^5}{5!}+o(x^5)$
其中 $o(x^n)$ 表示皮亚诺（Peano）余项

函数逼近(多项式逼近)

定理 (Weierstrass 逼近定理) 设 $\in C[a, b]$ ，则对任意的 $\varepsilon > 0$ 存在一个多项式 $p (x)$ ，使得
$max_{x\in[a,b]} \left | f(x)-p(x) \right | < \varepsilon$ 在 [a, b] 上一致成立。该定理也称为 Weierstrass 第一定理。该定理表明，任意一个闭区间上的连续函数都可以用多项式来一致逼近，即实系数多项式构成的集合在 $C [a, b]$ 内是处处稠密的。

(这里摘录部分多项式逼近的内容) 在统计计算和其它科学计算中，经常需要计算各种函数的值，对函数进行逼近，用数值方法计算积分、微分。

数学中的超越函数如 $e^x,ln(x),sin(x)$ 在计算机中经常用泰勒级数展开来计算，这就是用多项式来逼近函数。数学分析中的Weierstrass 定理表明，闭区间上的连续函数可以用多项式一致逼近。

泰勒展开要求函数有多阶导数，我们需要找到对更一般函数做多项式逼近的方法[2]。考虑如下的函数空间
$L^2[a,b]=\left \{ g(\cdot ): g(x)\in [a,b],\int_{a}^{b} g^2(x)w(x)dx<\infty \right \} \quad (2.1)$ 则是 $L^2[a,b]$ 线性空间，在 $L^2[a,b]$ 中定义内积
$<f,g>=\int_{a}^{b} f(x)g(x)w(x)dx \quad (2.2)$ 其中 $w (x)$ 是适当的权重函数， $L^2[a,b]$ 则为希尔伯特（Hilbert）空间。对 $g(x)\in L^2[a,b]$ , 假设希望用 $n$ 阶多项式 $f_n(x)$ 逼近，使得
$\left \| f_n-g \right \|^2=\int_{a}^{b} \left | f_n(x)-g(x) \right |^2 w(x)dx \quad (2.3)$ 最小。如何求这样的多项式？

用Gram-Schmidt正交化方法可以在 $L^2[a,b]$ 中把多项式序列 $\left \{ 1,x,x^2,\dots \right \}$ 正交化为正交序列 $\left \{ P_0,P_1,P_2,\dots \right \}$ ，序列中函数彼此正交，且 $P_k$ 是 $k$ 阶多项式, 称 $\left \{ P_0,P_1,P_2,\dots \right \}$ 为正交多项式。设 $H_n[a,b]$ 为函数 $\left \{ 1,x,x^2,\dots,x^n \right \}$ 的线性组合构成的线性空间，则 $\left \{ P_0,P_1,\dots,P_n \right \}$ 构成 $H_n[a,b]$ 的正交基且 $P_n[a,b]$ 是 $L^2[a,b]$ 的子希尔伯特空间，使得加权平方距离 $(2.3)$ 最小的 $f_n(x)$ 是 $g(\cdot)$ 在子空间 $H_n[a,b]$ 的投影，记为 $\tilde{P}_{H_n[a,b]}(g)$ , 投影可以表示为 $\left \{ P_0,P_1,\dots,P_n \right \}$ 的线性组合
$\tilde{P}_{H_n[a,b]}(g) = \sum_{j=0}^{n} \frac{<g,P_j>}{\left \| P_j \right \|^2 } P_j\cdot$ 这样，只要预先找到 $[a, b]$ 上的多项式的正交基，通过计算内积就可以很容易地找到使得 $(2.3)$ 公式最小的 $f_n(x)$ 。对于 $L^2[a,b]$ 中的任意函数 $g (x)$ 有
$\lim_{n \to \infty}\left \| \tilde{P}_{H_n[a,b]}(g)-g \right \|^2=0$ 于是有
$g=\lim_{n \to \infty} \tilde{P}_{H_n[a,b]}(g) = \sum_{j = 0}^{\infty} \frac{<g,P_j>}{\left \| P_j \right \|^2 } P_j\cdot$ 因为 $L^2[a,b]$ 依赖于定义域 $[a, b]$ 和权重函数 $w(\cdot)$ ，所以正交多项式也依赖于 $[a, b]$ 和 $w(\cdot)$ 。针对定义域 $[- 1, 1]$ , $[0,\infty]$ 和 $[-\infty,\infty]$ 和几种不同的权重函数可以得到不同的正交多项式序列，详细参考[2]

神经网络、残差连接与多项式逼近

神经网络一般由层的参数、激活函数、及层间连接构成，对于神经网络（无跨层连接），可以定义其函数 $F:R^{m}\longrightarrow R^{n}$ 的带参数的形式为：
$F_n(x; \theta) = f_{1} \circ g_1\circ f_{2} \circ g_2 \circ \dots \circ f_{n} \circ g_n$ 其中 $g$ 为激活函数， $f$ 为全连接函数。一般在神经网络中 $f_i=w_ix+b_i$ ，这里为了方便我们去掉bias项，即 $f_i=w_i x$ ，首先假设 $g = x$ 即线性的激活函数，且为了简单 $w, x$ 都假设为标量，我们可以得到：

$F_1=w_1x$
$F_2=w_2 F_1=w_2w_1x$
$\dots$
$F_n=(\prod_{i=1}^{n}w_i)x$

所以我们会发现，由线性的激活函数构成的网络仍然为线性的，即 $\prod_{i=1}^{n}w_i$ 是一个常数，所以无论有多少层，网络都是线性的，同理加残差连接也是线性的。

为了获得非线性，我们可以假设 $g=x^2$ ，这时我们也可以得到递推公式

$F_1=(w_1)^2x^2$
$F_2=(w_2 F_1)^2=(w_2)^2(w_1)^4x^4$
$\dots$
$F_n=(\prod_{i=1}^{n}(w_i)^{2^{n-i+1}})x^{2^n}$

我们也会发现，由非线性的激活函数构成的网络为非线性的，这里可以根据残差网络加入跨层连接。

$F_1=(w_1)^2x^2 + x$
$F_2=(w_2 F_1)^2+F_1=(w_2)^2(w_1)^4x^4+2(w_1w_2)^2x^3+((w_2)^2+(w_1)^2)x^2+x$
$\dots$
$F_n=c_0x+c_1x^{2}+c_2x^{3}+c_3x^{4}+...+c_{2n-1}x^{2^n}$

递推公式太复杂了，为了方便这里 $F_n$ 不再在里面写 $w$ 参数了，而是合并作为参数 $c$ 。从这里我们就可以看到残差网络的作用，是作为函数的n次多项式逼近，和泰勒展开是基本一致的。所以相比于直接使用高阶项，残差网络带来的多项式逼近有更好的函数拟合效果。

这里只是讨论了 $g=x^2$ 的情形，其他激活函数的级数公式会更加复杂，总体是一个低阶到高阶的加和函数。

利用激活实现函数多项式逼近

需要说明的是， $g=x^2,g=ReLU^2(x)$ 激活函数在深度神经网络中容易引发梯度爆炸，且越深越容易梯度爆炸。

最近的在LLM中流行的激活函数Gated Linear Unit(GLU)就是利用了多项式的逼近的特性
$GLU(x,w,v,b,c)=\sigma(xw+b)\otimes (xv+c)$ 如：
$Bilinear(x,w,v,b,c)=(xw+b)\otimes (xv+c)$ $ReGLU(x,w,v,b,c)=ReLU(xw+b)\otimes (xv+c)$ 我们很容易得到这两者（在激活时，后者）的展开 $x^2wv+x(wc+vb)+bc$ 。