MIT 2023 深度学习2

目标函数

       想要拟合现实世界,首先就要定义什么是现实世界,或说,什么样的模型才能算拟合了现实世界。这里就需要引入目标函数的概念。目标函数,顾名思义就是描述了模型需要达成的目标的函数,比如在二分类任务中,我们会使用交叉熵来描述预测结果和真实结果的差距,这个距离越小说明模型越接近于真实;在图像任务中,我们会使用结构相似性来评价图像质量,这个值越大说明图像质量越好。值得一提的是,目标函数是一个较为宽泛的概念,并不局限于损失函数,如条件随机场中,目标函数就不是用来描述真实与预测差异的损失函数;在目标函数的选择上,往往需要综合考虑其的实际意义与求解难度。

梯度下降

        有了目标函数,那下一步就要调整模型输出,来使目标函数尽可能地取得较好的值。而上一节中我们知道了,每个神经元都可以被表达成

\hat y=g\left(w_{0}+X^TW \right )\\ where:X=\begin{bmatrix} x_{1}\\ \vdots\\ x_{m} \end{bmatrix},W=\begin{bmatrix} w_{1}\\ \vdots\\ w_{m} \end{bmatrix}

其中偏置w_{0}和权重W是可训练参数;而深度学习模型都可以看作若干个神经元的堆叠,所以想要调整模型输出,其实就是要调整每个神经元的这两个参数。至此,我们将问题转化成了“求解在什么条件下函数取得最值”的问题。

       但显然这个寻找最优参数组合的问题还无法在数学上被一劳永逸地解决;而每次调整时,各个参数对最终结果的影响又不尽相同,需要有差别地进行调整,需要庞大的计算量。因此我们需要一种精细化调整每个参数、渐次逼近的算法来让计算机自行拟合最优组合。在这个场景下这个算法就是梯度下降法。

       在讨论这个算法之前,首先要回答的一个问题是“为什么是梯度”。在数学上梯度的定义是

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。

这个工具很好地满足了我们的需求:1、可以针对每个参数进行精细化地调整来达到最优;2、可以由计算机完成。

        梯度下降法的流程可以简单地用以下三步来描述:

  1. 对于目标函数J(W),与参数W计算每个参数的梯度\frac{\partial J(W)}{\partial W}
  2. 更新参数W\leftarrow W-\eta \times \frac{\partial J(W)}{\partial W}
  3. 迭代执行1、2两步,直到目标函数趋于稳定

        为了解释清楚这三步,我们先来假设一个简单的场景。这是一个由三个神经元(L_{1}, L_{2}, L_{3})堆叠而成的网络,激活函数为f,真实标签为y,目标函数为均方差损失函数C,则我们可以将这个网络归纳为以下表达式

z_{1}=w_{1}X+b_{1}\\ a_{1}=f(z_{1})\\ z_{2}=w_{2}a_{1}+b_{2}\\ a_{2}=f(z_{2})\\ z_{3}=w_{3}a_{2}+b_{3}\\ a_{3}=f(z_{3})\\ C(w_{1},b_{1},w_{2},b_{2},w_{3},b_{3})=(a_{3}-y)^{2}

梯度计算

        由梯度计算公式及链式法则,我们很快就可以写出w_{3}b_{3}的梯度公式

\frac{\partial C}{\partial w_{3}}=\frac{\partial z_{3}}{\partial w_{3}}\frac{\partial a_{3}}{\partial z_{3}}\frac{\partial C}{\partial a_{3}}=a_{2}f^{'}(z_{3})2(a_{3}-y)\\ \frac{\partial C}{\partial b_{3}}=\frac{\partial z_{3}}{\partial b_{3}}\frac{\partial a_{3}}{\partial z_{3}}\frac{\partial C}{\partial a_{3}}=f^{'}(z_{3})2(a_{3}-y)\\

类比地,我们也能推导出w_{1},b_{1},w_{2},b_{2}的梯度公式,这个链可以延申至模型中的每一个变量。观察这两个式子可以发现,Cw_{3}的敏感程度与上一层的输出a_{2}有关,结合上一节中提到的,神经元处于“非激活”状态时会输出一个接近于0的值,这就是所谓的

neurons that fire together wire together

一同激活的神经元关联在一起

        有了上述公式,对于每一个输入X_{i}和真实标签y_{i},我们都可以计算出\frac{\partial C_{i}}{\partial w_{3}}\frac{\partial C_{i}}{\partial b_{3}}\frac{\partial C_{i}}{\partial w_{2}}\frac{\partial C_{i}}{\partial b_{2}}\frac{\partial C_{i}}{\partial w_{1}}\frac{\partial C_{i}}{\partial b_{1}},这些都是具体的,从而我们就得到了模型对于某个样本的梯度

\nabla C_{i}=\begin{bmatrix} \frac{\partial C_{i}}{\partial w_{1}}\\ \frac{\partial C_{i}}{\partial b_{1}}\\ \frac{\partial C_{i}}{\partial w_{2}}\\ \frac{\partial C_{i}}{\partial b_{2}}\\ \frac{\partial C_{i}}{\partial w_{3}}\\ \frac{\partial C_{i}}{\partial b_{3}} \end{bmatrix}

对每个样本的梯度取平均,则得到了每轮训练的梯度向量

\nabla C=\frac{1}{n}\sum_{i=1}^{n}\nabla C_{i}

参数更新

        有了样本总体的梯度,参数就可以依据这个梯度进行更新了

W\leftarrow W-\eta \times \frac{\partial J(W)}{\partial W}

这里的\eta就是深度学习中最重要的参数之一——学习率。从这个式子就不难明白学习率对于模型训练的重要性,通过学习率对梯度进行缩放,可以有效调节每轮训练中参数更新的幅度。

那么,代价是什么

        上文中我们了解了深度学习中最核心的算法“梯度下降”的来龙去脉。仔细研究这个过程,难免会觉得这套算法有点太理想化了。

        没错,是有代价的——

  1. 计算量庞大。随着模型参数的增长,所需的计算量也呈几何增长,到llm时代模型预训练的开销已经超出了一般企业的承受范围。
  2. 局部最优问题。梯度下降的求解方式很容易让模型陷入局部最优之中。
  3. 训练中的坑。模型的好坏强烈依赖于超参数设置,参数初始值选择,目标函数选择,训练集质量等因素。这些变量往往需要大量实验来确定,且有时这种实验会是盲目的。
  4. 可解释性问题。对于这种关于特征的高维表达,往往很难找到令人信服的解释。这也导致了模型出现误报时很难定位原因并作出有效改进。
  5. ……

为了解决这些问题,更多精巧的算法正在路上。

致谢:该节参考了b站up主3Blue1Brown关于深度学习的内容,原版包含大量动图展示,更为直观

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值