【深度学习入门基础】一、从线性代数和微积分的角度看神经网络

陆嵩

已于 2022-06-25 09:41:23 修改

阅读量1.2k

点赞数 2

分类专栏：数学原理数据科学与人工智能计算数学文章标签：深度学习神经网络机器学习线性代数微积分

于 2022-02-26 21:57:33 首次发布

本文链接：https://blog.csdn.net/lusongno1/article/details/123156975

版权

计算数学同时被 3 个专栏收录

167 篇文章

订阅专栏

数学原理

116 篇文章

订阅专栏

数据科学与人工智能

57 篇文章

订阅专栏

这篇深度学习入门文章从矩阵乘法和微积分的角度解释神经网络。通过矩阵运算理解神经网络的结构，使用梯度下降和反向传播进行参数训练，以最小化损失函数，使预测输出接近实际值。适合初学者快速掌握神经网络基本原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【深度学习入门基础】从线性代数和微积分的角度看神经网络

这是深度学习入门系列文章，我们企图用最简洁的语言、最干净的表达，让读者快速获取到他所想要的。本系列文章持续更新。一些网上能查到的基础知识，诸如激活函数有哪些等，不再介绍。

导言

大多数介绍深度学习的资料，一开始就从生物神经元、轴突、树突、刺激等等讲起，本来很简单的东西，却被介绍得云里雾里。本文将从矩阵乘法和导数的角度入手，让你一下子 get 到什么是神经网络。

矩阵乘法看神经网络

问题是这样一个问题：假设有一个列向量 $\mathbf{x}$ ，希望它通过一个“黑箱子”的操作之后，出来的向量和另外的一个等长度的已知向量 $\mathbf{y}$ 尽可能地“接近”，如何衡量“接近”？且听稍后介绍。

这里的“黑箱子”就是一个网络，它可以简单地理解为矩阵乘向量的嵌套，即：
$F(\mathbf{x}):=\sigma(A_n[\cdots (A_3[\sigma(A_2[\sigma(A_1\mathbf{x}+\mathbf{b_1})]+\mathbf{b_2})]+\mathbf{b_3})]+\mathbf{b_n})$
这里的 $A_1、A_2…A_n$ 是参数矩阵，里面的元素都是一些未知的参数，这里的 $\mathbf b_1、\mathbf b_2… \mathbf b_n$ 是参数列向量。 $A_i, \mathbf{b}_i, i=1,\cdots,n$ 的规模总是让上式是合理的。 $\sigma$ 是一个函数，人们喜欢称之为激活函数，它作用于一个向量表示分别作用于向量的每个分量。 $A_i, \mathbf{b}_i$ 中元素都是未知量，我们统称为参数。

举个简单的例子。令 $A = [w_1,w_2]$ 。取激活函数为 sigmoid 函数：
$\sigma(z)=\frac{1}{1+e^{-z}}$
那么， $F(\mathbf{x}) = \sigma(A\mathbf{x}+b)$ ，这就是逻辑回归的输出形式。逻辑回归就是一种最简单的神经网络。

微积分视角看训练

由上可知， $F(\mathbf{x})$ 本质上就是一个含参的表达式，神经网络训练要做的事情就是调整参数，使得对于已知的 $\mathbf{x}$ 和 $\mathbf{y}$ ， $F(\mathbf{x})$ 和 $\mathbf{y}$ 尽可能地近。度量向量之间的远近有很多种度量，比如欧式距离：
$\mathcal{L} (A_1,A_2,\cdots,A_n,\mathbf{b}_1,\cdots,\mathbf{b}_n):= || F(\mathbf{x}) - \mathbf{y} ||$
$\cdot ||$ 表示向量 2 范数。我们也称 $\mathcal{L} $ 为损失函数。显然，这里的 $\mathcal{L}$ 只是一个关于参数的函数，优化上称之为目标函数，我们想做的就是关于这个函数的参数极小化目标函数。

给定一个目标函数，我们要关于参数极小化它，这是一个无约束优化问题，在数值上有很多求解方法，神经网络采用梯度下降。梯度下降的步长，被人们称为“学习率”。

要用梯度下降，就要求损失函数的梯度，梯度是由目标函数对各个参数求导组成的一个向量，所以， $\mathcal{L}$ 需要对各个参数求导。 $F(\mathbf{x})$ 的表达式可以看出，不同层的参数之间存在嵌套关系，微积分告诉我们，复合类型的函数求导，需要用到链式法则，链式法则在神经网络上的应用，人们喜欢称之为“反向传播”。

上面提到的仅仅是一组输入输出的情况，当有多组输入输出 $\{\mathbf x_i,\mathbf y_i, i = 1,2,\cdots,N\}$ 的时候，我们如此定义损失函数：
$\mathcal{L} (A_1,A_2,\cdots,A_n,\mathbf{b}_1,\cdots,\mathbf{b}_n):= \frac{1}{2}\sum_{i=1}^N || F(\mathbf{x}_i) - \mathbf{y}_i ||^2$
训练的优化过程和上述是一致的。