神经网络的基本理论公式推导

风风雨雨58

已于 2022-11-08 10:52:58 修改

阅读量1.7k

点赞数 4

文章标签：神经网络深度学习

于 2022-11-07 18:16:00 首次发布

本文链接：https://blog.csdn.net/u014306722/article/details/127690561

版权

1.1 单一样本表示

我们首先来看单一样本的表示，假设输入的样本为 $x$ ，那么我们可以将其表示为一个向量，即 $[x_1, x_2, \cdots, x_n]^T$ ，其中 $x_i$ 表示第 $i$ 个特征， $n$ 表示特征的个数。输出我们可以表示为 $y$ ，即 $[y_1, y_2, \cdots, y_m]^T$ ，其中 $y_i$ 表示第 $i$ 个输出， $m$ 表示输出的个数。那么，线性模型可以表示为:
$\begin{equation} y = Wx + b \end{equation}$
其中， $W$ 表示权重，是一个 $\times n$ 的矩阵， $b$ 表示偏置，是一个 $\times 1$ 的向量。在上式中，我们将样本特征向量 $x$ 乘以权值矩阵 $W$ ，也就是对 $x$ 进行了拉伸变换，然后再加上了一个偏置 $b$ ，也就是做了一个平移变换。最后得到了一个输出 $y$ ，那么 $y$ 就是 $x$ 经过变换后的表示。由于拉伸和平移都是线性变换，所以 $y$ 是 $x$ 的线性变换。这就是线性模型的基本思想。

如果想要对 $x$ 进行更加丰富的表示，我们可以在线性模型的基础上加入非线性变换，这样我们就可以先把 $x$ 在线性空间中进行一次映射，再进行非线性映射，最后得到一个新的表示。这样的模型称为非线性模型。假设我们的非线性模型为 $f (x)$ ，那么我们可以将其表示为:
$\begin{equation} a = Wx + b \end{equation}$
$\begin{equation} y=f(a) \end{equation}$

对于上面的模型，我们应该怎么去确定权重 $W$ 和偏置 $b$ 呢？考虑回归问题，输入和输出都是已知的，我们需要确定参数 $W$ 和 $b$ ，使得输入映射到输出误差最小。这个问题可以用最小二乘法来求解，即:
$\begin{equation} \hat{y} = f(Wx + b) \end{equation}$
$\begin{equation} L(W,b)= \sum_{i=1}^n (y_i - \hat{y}_i)^2=(y-\hat{y})^T(y-\hat{y}) \end{equation}$
其中， $L(y,\hat{y})$ 表示损失函数， $y$ 表示真实的输出， $\hat{y}$ 表示预测的输出。现在这个问题就变成了一个优化问题，我们需要找到一个最优的 $W$ 和 $b$ ，使得损失函数最小，即:
$\begin{equation} \arg\min_{W,b} L(y,\hat{y}) \end{equation}$
这个问题可以用梯度下降法来求解，即:
$\begin{equation} W \leftarrow W - \eta \frac{\partial L}{\partial W} \end{equation}$
$\begin{equation} b \leftarrow b - \eta \frac{\partial L}{\partial b} \end{equation}$
其中， $\eta$ 表示学习率，是一个超参数，用来控制参数更新的幅度。这样，我们就可以通过梯度下降法来求解参数 $W$ 和 $b$ 。

假设 $f (x)$ 是sigmoid函数，即:
$\begin{equation} f(x) = \frac{1}{1+e^{-x}} \end{equation}$
其导数为:
$\begin{equation} f'(x) = f(x)(1-f(x)) \end{equation}$
那么，根据链式法则，梯度下降法中的 $\frac{\partial L}{\partial W}$ 和 $\frac{\partial L}{\partial b}$ 的计算过程如下：
$\begin{equation} \frac{\partial L}{\partial W} = \frac{\partial L}{\partial \hat{y}} \frac{\partial \hat{y}}{\partial a} \frac{\partial a}{\partial W} \end{equation}$
$\begin{equation} \frac{\partial L}{\partial \hat{y}}=\frac{\partial}{\partial \hat{y}}\sum_{i=1}^n (y_i - \hat{y}_i)^2=\frac{1}{2}(\hat{y}-y) \end{equation}$
$\begin{equation} \frac{\partial \hat{y}}{\partial a}=f'(a)=f(a)(1-f(a))=\hat{y}\odot(1-\hat{y}) \end{equation}$
$\begin{equation} \frac{\partial a}{\partial W}=\frac{\partial (Wx+b)}{\partial W}={\begin{bmatrix}x_1 & x_2 & \dots & x_n\\ x_1 & x_2 & \dots & x_n\\ \vdots & \vdots & \dots & \vdots \\ x_1 & x_2 & \dots & x_n\end{bmatrix}}_{m \times n} = {\begin{bmatrix}1\\1\\\vdots \\1\end{bmatrix}}_{m \times 1} x^T \end{equation}$
将(12)(13)(14)式代入式(11)中，写成最终的矩阵形式：
$\begin{equation} \frac{\partial L}{\partial W}=\frac{1}{2}(\hat{y}-y)\odot\hat{y}\odot(1-\hat{y})x^T \end{equation}$
这个 $\odot$ 符号表示对应位置元素相乘。
由于系数不会影响梯度下降法的结果，所以我们可以将系数 $\frac{1}{2}$ 去掉，得到:
$\begin{equation} \frac{\partial L}{\partial W}=(\hat{y}-y)\odot\hat{y}\odot(1-\hat{y})x^T \end{equation}$
同理，对于 $\frac{\partial L}{\partial b}$ 可得:
$\begin{equation} \frac{\partial L}{\partial b}=(\hat{y}_i-y_i)\odot\hat{y}_i\odot(1-\hat{y}_i) \end{equation}$

1.2 多样本

在实际使用中，我们的样本往往有很多，而且我们更新参数的时候，通常也是一小批样本来更新，而不是一个样本。所以，我们需要将上面的公式进行一些修改，使得它能够适用于多样本的情况。假设我们有 $p$ 个样本，我们的式(2)(3)(4)(5)重新表示为:
$\begin{equation} A_{m \times p} = W_{m \times n}X_{n \times p} + B_{m \times p} \end{equation}$
$\begin{equation} Y_{m \times p}=f(A_{m \times p}) \end{equation}$
$\begin{equation} \hat{Y}_{m \times p} = f(W_{m \times n}X_{n \times p} + B_{m \times p}) \end{equation}$
$\begin{equation} L(W,b)= \frac{1}{2p} \sum_{j=1}^p \sum_{i=1}^n (y_{ij}- \hat{y}_{ij})^2=\frac{1}{2p} tr((Y-\hat{Y})(Y-\hat{Y})^T) \end{equation}$
这里的 $t r$ 表示矩阵的迹， $B_{m \times p}$ 为：
$\begin{equation} B_{m \times p}={\begin{bmatrix}b_1 & b_1 & \dots & b_1\\ b_2 & b_2 & \dots & b_2\\ \vdots & \vdots & \dots & \vdots \\ b_m & b_m & \dots & b_m\end{bmatrix}}_{m \times p}=b_{m \times 1} \otimes {\begin{bmatrix}1 & 1 & \dots & 1\end{bmatrix}}_{1 \times p} \end{equation}$
这里的 $\otimes$ 符号表示克罗内克积，上面就是将 $b$ 进行横向延拓
让我们来重新计算下 $\frac{\partial L}{\partial W}$ 和 $\frac{\partial L}{\partial b}$ 。首先，我们来计算 $\frac{\partial L}{\partial W}$ 。根据链式法则，我们可以得到:
$\begin{equation} \frac{\partial L}{\partial W} = \frac{\partial L}{\partial \hat{Y}} \frac{\partial \hat{Y}}{\partial A} \frac{\partial A}{\partial W} \end{equation}$
先计算 $\frac{\partial L}{\partial \hat{Y}}$ :
$\begin{equation} \frac{\partial L}{\partial \hat{Y}} = \frac{\partial}{\partial \hat{Y}}\frac{1}{2p} \sum_{j=1}^p \sum_{i=1}^n (y_{ij}- \hat{y}_{ij})^2 = \frac{1}{p}(\hat{Y}-Y) \end{equation}$
接下来计算 $\frac{\partial \hat{Y}}{\partial A}$ :
$\begin{equation} \frac{\partial \hat{Y}}{\partial A} = \frac{\partial}{\partial A}f(A) = f(A) \odot (1-f(A)) \end{equation}$
再计算 $\frac{\partial A}{\partial W}$ :
$\begin{equation} \frac{\partial A}{\partial W} = \frac{\partial}{\partial W}(W X + B) = {\begin{bmatrix} 1 & 1 & \dots & 1\\1 & 1 & \dots & 1\\\vdots & \vdots & \dots & \vdots \\1 & 1 & \dots & 1 \end{bmatrix}}_{m \times p} X^T_{n \times p} \end{equation}$
将上面的三个式子代入(23)中，得到:
$\begin{equation} \frac{\partial L}{\partial W} = \frac{1}{p}(\hat{Y}-Y) \odot f(A) \odot (1-f(A)) X^T \end{equation}$
同理，我们可以得到:
$\begin{equation} \frac{\partial L}{\partial b} = \frac{1}{p}(\hat{Y}-Y) \odot f(A) \odot (1-f(A)) {\begin{bmatrix}1 & 1 & \dots & 1\end{bmatrix}}_{1 \times p}^T \end{equation}$