深度学习探索-基础篇-损失函数篇

最新推荐文章于 2025-09-22 22:18:24 发布

原创

最新推荐文章于 2025-09-22 22:18:24 发布 · 1.4k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能

文章目录

一、损失函数介绍
二、经典损失函数示例

一、损失函数介绍

1.1 损失函数的定义与作用

在深度学习中，损失函数（Loss Function） 是一个非常关键的概念，它扮演着指导模型学习的角色。你可以将损失函数想象成一个裁判，它的任务是评判模型对于给定数据的预测做得有多好或多差。

当模型做出预测时，损失函数会比较这个预测与实际的正确答案（真实值），并给出一个错误的度量——也就是损失。这个损失是一个数值，通常是一个非负数，数值越小意味着模型的预测越接近真实值，因此模型的表现越好。

深度学习的目标之一就是通过调整模型内部的参数（权重和偏置），使得损失函数的值尽可能地小。 这就好比你在玩一个游戏，游戏的规则（损失函数）告诉你离胜利（最小的损失）还有多远，你根据这些反馈来调整你的策略（模型参数），直到你找到最佳的解决方案。

在训练过程中，深度学习模型使用优化算法，如梯度下降（Gradient Descent），来逐步调整参数，使损失函数的值逐渐减小，从而提高模型的准确性和性能。

1.2 损失函数的分类

1.2.1 回归损失函数

这类损失函数主要用于处理预测连续值的问题，比如预测房价、股票价格或者温度等。常见的回归损失函数包括：

均方误差（Mean Squared Error, MSE）：计算的是模型预测值与实际值之间的差的平方的平均值。这种损失函数对大的预测误差非常敏感，因为误差是平方计算的。
平均绝对误差（Mean Absolute Error, MAE）：计算的是预测值与实际值之间的差的绝对值的平均值。相比于MSE，MAE对异常值不那么敏感。
Huber损失：结合了MSE和MAE的优点，当误差较小时像MSE那样计算平方，当误差较大时则像MAE那样计算绝对值，这样可以减轻异常值的影响。

1.2.2 分类损失函数

分类损失函数用于处理分类任务，比如图像分类、情感分析等，它们评估模型预测的概率分布与实际标签之间的差异。常见的分类损失函数有：

交叉熵损失（Cross-Entropy Loss）：
- 二元交叉熵（Binary Cross-Entropy）：用于二分类问题，计算的是预测概率与实际标签之间的交叉熵。
- 多分类交叉熵（Categorical Cross-Entropy）：用于多分类问题，一般配合softmax函数使用，计算预测概率分布与one-hot编码的实际标签之间的交叉熵。
Hinge损失：主要用于支持向量机（SVM），它鼓励模型不仅正确分类，而且还要有足够的置信度。

1.2.3 排序损失函数

这类损失函数用于学习样本之间的相对顺序，常见于推荐系统、信息检索等领域。例如：

对比损失（Contrastive Loss）：用于成对数据，鼓励相似样本的特征表示靠近，不相似样本的特征表示远离。
三元组损失（Triplet Loss）：涉及三个样本，目的是让正样本与锚点样本的距离小于负样本与锚点样本的距离。

除此之外还有非常多的损失函数，通常我们针对不同的任务或者目标，我们都会设计出相对应的损失函数，所以损失函数的设计通常与任务的目标直接挂钩。

1.3 损失函数的数学原理

损失函数是一个衡量模型预测值与实际值之间差距的函数。 在数学上，它可以被看作是一个多变量函数，其中的变量是模型的参数（权重和偏置）。 损失函数的值越高，意味着模型的预测与真实值之间的差距越大；反之，损失函数的值越低，则说明模型的预测越接近真实值。

梯度是多元函数在某一点处方向导数的最大值，它指向了函数增长最快的方向。 在二维空间中，梯度可以简单地理解为函数图像上某点的斜率矢量。在深度学习中，我们关心的是损失函数在当前参数设置下的梯度，因为这个梯度指示了损失增加最快的方向。

既然梯度指向了损失函数值增加的方向，那么我们可以利用这个信息来找到损失函数值减小的方向。 梯度下降法就是一种迭代优化算法，它通过沿着损失函数梯度的反方向（即损失减小最快的方向）更新模型参数，来逐步减小损失函数的值。每次更新参数的步长由学习率决定。

数学优化的目标是在约束条件下找到一个函数的最小值或最大值。在深度学习中，我们通常是在没有显式约束的情况下寻找损失函数的最小值。 梯度下降法正是这样一种优化技术，它尝试通过迭代地调整参数来找到损失函数的局部最小值，理想情况下是全局最小值。

深度学习的优化是一个迭代的过程。在每一次迭代中，模型都会根据当前数据计算出损失函数的梯度，然后按照一定的学习率更新参数。这一过程会重复进行，直到损失函数的值收敛到一个足够小的值，或者达到预设的停止条件。

二、经典损失函数示例

2.1 交叉熵损失函数

2.1.1 定义介绍

交叉熵损失函数（Cross-Entropy Loss），在深度学习和机器学习领域中，是一种广泛应用于分类任务的损失函数。它特别适合处理多分类问题，尽管也常用于二分类任务。

通俗来讲，交叉熵损失函数衡量的是两个概率分布之间的差异。在深度学习中，模型的输出通常是一组概率值，表示每个类别的可能性。而交叉熵损失函数则比较这些预测概率与真实的类别标签（通常是one-hot编码形式）之间的差异。

假设我们有一个分类任务，类别数量为 $C$ ，对于一个样本 $i$ ，模型预测的概率分布为 $p_i = [p_{i1}, p_{i2}, ..., p_{iC}]$ ，真实标签的概率分布（即one-hot编码）为 $q_i = [q_{i1}, q_{i2}, ..., q_{iC}]$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。