深度学习基础知识（二）损失函数

notinmmin

已于 2023-07-12 14:30:47 修改

阅读量323

点赞数 4

文章标签：深度学习人工智能

于 2023-07-12 14:27:03 首次发布

本文链接：https://blog.csdn.net/notinmmin/article/details/131680906

版权

（一）前置知识回顾-加深对权重矩阵W的理解

在上一节得分函数中，我们知道了得分函数 $f(x,W)+b$ 的用处。权重矩阵W的各个权重参数是在大量的训练之后得到的。

上面的这个小猫识别的例子中用到了一个权重矩阵W，这个权重矩阵的每一行都对应了某一个类别对这张图片各个像素点的感兴趣程度。

以权重矩阵的第一行为例，这行的四个元素分别对应猫这个类别对图片 $xi$ 的的四个像素的感兴趣程度。其中 $W_{14}$ 对应的2.0大于 $W_{11}$ 的0.2，这表明在判断一张图片是否为猫时，第四个像素点 $x_{4}$ 的取值比第一个像素点 $x_{1}$ 起到更为重要的作用。 $W_{12 }$ 对应的值为负数则说明如果要确定这张图片是一只猫，第二个像素点的值要越小越好。同理如果值是0，则证明对应的像素点取任何值都不影响这个类别的得分。

顺带一提，图片一般以一个 $x\times y\times r$ 的三维矩阵来表示，其中x和y构成了二维平面，而r则表示在图片在某个坐标上各个颜色通道的像素值是多少（比较常用的是三通道方式，分别代表红黄蓝三种原色）。但是在实际使用图片来进行训练或者测试时，通常将图片的三维矩阵铺开成一个一维矩阵（向量），向量的分量数是xyr。

（二）损失函数的提出

在上面的例子中，经过 $y=f(x,W)+b$ 的运算之后，会得到待测试的小猫图片在各个类别上的得分y，我们会观察图片在哪个类别上的得分最高，从而得出这张图片到底属于哪个分类。

由于我们的W权重矩阵一开始是用随机数进行初始化的，所以这个得分函数的结果并不符合我们的预期。图片分类出现了偏差或者说不准确，这明明是一只猫算法却将其预测成了一只狗。

如果定量的刻画这种不准确的程度？我们引入了损失函数这个概念

（三）损失函数的定义

值得一提的是，神经网络既可以用于回归，又可以用于分类，区别就在于它们使用了不同的损失函数，我们下面讲到的损失函数都是分类任务所使用的损失函数。

$L_{i}=\sum_{j\neq y_{i}} max(0,s_{j}-s_{y_{i}}+1)$

损失函数的定义中，下标i表示这个图片实际属于哪个分类（通常需要人工来标注)。由小猫图片的得分结果计算损失函数值的过程如下： $res=max(0,437.0-(-96.8)+1)+max(0,61.95-(-96.8)+1)$

注意，在损失函数的定义中， $s_{j}-s_{y_{i}}$ 后面有一个+1，这个加一表示的是一种对预测错误的“容忍程度”。比如这是一张猫的图片，在测试时得分函数给猫的打分是10分。那么狗的得分在9分以下这种错误就是可以容忍的，按照损失函数的定义这种损失值为0。但如果狗的得分在9分以上，甚至超过了猫的得分10分，那就是不可容忍的了，此时损失值为一个大于零的值，这个值越大说明预测结果错的越离谱。

（四）损失函数的意义

损失函数能反映当前我们模型中的权重矩阵W的各个参数到底有多离谱，居然能产生这么大的误差。这有便我们后面进一步调整我们的参数，来使得损失函数值越来越小，预测结果越来越准，模型的参数越来越完美。

notinmmin

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
7
评论
深度学习基础知识（二）损失函数

值得一提的是，神经网络既可以用于回归，又可以用于分类，区别就在于它们使用了不同的损失函数，我们下面讲到的损失函数都是分类任务所使用的损失函数。损失函数的定义中，下标i表示这个图片实际属于哪个分类（通常需要人工来标注)。由小猫图片的得分结果计算损失函数值的过程如下：注意，在损失函数的定义中，后面有一个+1，这个加一表示的是一种对预测错误的“容忍程度”。比如这是一张猫的图片，在测试时得分函数给猫的打分是10分。那么狗的得分在9分以下这种错误就是可以容忍的，按照损失函数的定义这种损失值为0。
复制链接

扫一扫