机器学习模型训练中，模型和梯度是什么？

最新推荐文章于 2024-05-05 16:28:10 发布

ayamee

最新推荐文章于 2024-05-05 16:28:10 发布

阅读量1.7k

点赞数 18

文章标签：人工智能

本文链接：https://blog.csdn.net/ayamee/article/details/134748000

版权

做AI相关的工作，最离不开的就模型训练。本文主要简单介绍一下训练过程当中涉及的几种术语的本质，了解了这些，能更清晰地理解整个训练过程。

一、模型

我们都知道，一个模型的训练过程包括：输入->模型->输出。其实模型的本质就是一个映射关系，得到特定的输入，模型能够准确地得到与该输入正确对应的结果。例如将一张猫的图片输入分类模型中，机器可以自行将该图片分类为猫。

而模型训练过程就是找到这样一个模型的过程。如何找到呢？

这就涉及到模型的本质，模型其实是又层层节点组合而成，输入数据则是已经被量化的特征值。以下用两层网络举例。

层1为输入层，不作任何处理，图中输入数据为1.0和0.2，图中节点1.1 -> 节点2.1的权重为0.9，1.2 -> 2.1的权重为0.3,聚合结果为1*0.9 + 0.5*0.3 = 1.05。同理可算得节点2.2的值。实际使用中会在最后引入激活函数引入非线性因素来提高模型泛化性，这里暂时不讨论。

图中就是一个训练中最简单的前向传播过程了，其中各链路上的权重实际上就是模型了，我们要做的就是不断更新找到最合适的链路权重，也就是模型参数。

而更加巧妙的是，矩阵乘法正好可以模拟这个过程。

等式左端左阵表示权重矩阵，右阵是输入矩阵，等式右端则表示输出数据。因此，模型实际上就可以表示为tensor类型，即张量类型，实质矩阵，表现为多维数组。这样一来，就能大大简化运算过程。

以此类推，后一层将前一层的输出作为输入，即可推广到多层多节点的情况。

二、梯度

前向传播过后，我们要做的就是利用输出数据来调整模型参数。这个过程就叫反向传播。首先我们需要计算得到本次前向传播的损失值：即模型输出与实际结果（训练数据的标签）之间的差距。这个差距的计算方法多种多样，不同方法有不同优势和劣势，这里不展开，但得到的结果跟输入数据同样都是一个矢量，计算损失值的表达式即为损失函数。

在反向传播的过程中，利用各链路的权重分配损失值。这里很容易理解：因为权重大的链路在前向传播时对输出影响更大，那就意味着需要调整时分配到的权重应该更大。更巧妙的是，这个过程同样可以用矩阵乘法完成，而且只需要将之前的权重矩阵做转置即可参与运算。

将（反向传播中方向上的）前一层的损失值输出作为后一层的损失值输入，以此类推即可得到各层各节点上的损失值。梯度就是在此基础上计算得到。

更新模型的过程就是：找到损失函数下降最快的方向，即梯度；乘以设置的学习步长α，用旧模型加上（或减去）这个值，得到更新之后的模型。梯度下降的方向通过求偏导计算得出，用损失函数相对于权重（模型参数）的偏导数表示。所以，梯度实际上是一个表示方向的向量。其形状与损失函数相同，梯度中每个位置的元素表示损失函数对应位置元素相对于权重的变化率。