常见的损失函数详解

易之阴阳

于 2024-05-09 10:44:36 发布

阅读量460

点赞数 4

分类专栏：人工智能深度学习机器学习文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuzk423/article/details/138603447

版权

人工智能同时被 3 个专栏收录

144 篇文章 0 订阅

订阅专栏

101 篇文章 1 订阅

订阅专栏

82 篇文章 0 订阅

订阅专栏

损失函数（Loss Function）是机器学习和统计建模中的关键概念，它量化了模型预测值与实际观测值之间的差异。损失函数的选择直接影响模型的训练过程和最终性能。以下是一些常见的损失函数及其特点和应用场景：

平方损失函数（Mean Squared Error, MSE）
- 公式: (L(y, \hat{y}) = \frac{1}{2} (y - \hat{y})^2)
- 特点: 在回归问题中广泛使用，易于优化且对异常值敏感。它惩罚了预测值与真实值之间差异的平方，使得较大的误差受到更大的惩罚。
- 应用场景: 线性回归，连续值预测。
绝对值损失函数（Mean Absolute Error, MAE）
- 公式: (L(y, \hat{y}) = |y - \hat{y}|)
- 特点: 相比MSE，对异常值不那么敏感，但不是处处可导，可能会导致优化过程较慢。
- 应用场景: 回归问题，特别是对异常值有更好容忍度的情况。
0-1损失函数（Zero-One Loss）
- 公式: (L(y, \hat{y}) = \mathbb{1}_{y \neq \hat{y}})
- 特点: 直接衡量分类错误，非凸、非连续，优化困难。但在理论上直观反映了分类错误的直接数量。
- 应用场景: 理论讨论，感知机算法。
交叉熵损失函数（Cross-Entropy Loss）/ 对数损失函数（Log Loss）
- 公式: 对于二分类问题，(L(y, \hat{p}) = -y\log(\hat{p}) - (1-y)\log(1-\hat{p}))，其中(\hat{p})是模型预测的正类概率。
- 特点: 在分类问题中非常有效，特别是在softmax函数输出的概率分布与实际标签比较时。对预测概率的误差进行了惩罚，尤其擅长处理概率预测。
- 应用场景: 逻辑回归，神经网络分类。
Hinge损失函数
- 公式: 常用于SVM，(L(y, \hat{y}) = \max(0, 1 - y\hat{y}))，其中(y)是标签（+1或-1），(\hat{y})是模型的决策边界一侧的间隔。
- 特点: 鼓励模型找到最大化间隔的决策边界，对异常值有一定鲁棒性。
- 应用场景: 支持向量机（SVM）等最大间隔分类器。
Smooth L1损失函数
- 公式: (L(y, \hat{y}) = \begin{cases}
  0.5(x_i - y_i)^2 & \text{if } |x_i - y_i| < 1 \
  |x_i - y_i| - 0.5 & \text{otherwise}
  \end{cases})
- 特点: 结合了L1和L2损失的优点，对于小误差采用平方损失，大误差采用绝对值损失，减少了梯度爆炸问题，常用于目标检测中。
- 应用场景: 目标检测中的定位误差测量。
指数损失函数（AdaBoost）
- 公式: (L(y, f(x)) = e^{-yf(x)})
- 特点: AdaBoost算法中使用，随着预测值与真实标签的乘积增加而指数级减小，鼓励正确分类。
- 应用场景: AdaBoost集成学习方法。

这些损失函数各有千秋，选择哪种取决于具体的应用场景、模型类型以及对误差的容忍度。在实践中，还可能结合正则化项（如L1或L2正则化）来避免过拟合，优化模型泛化能力。

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
常见的损失函数详解

损失函数（Loss Function）是机器学习和统计建模中的关键概念，它量化了模型预测值与实际观测值之间的差异。损失函数的选择直接影响模型的训练过程和最终性能。这些损失函数各有千秋，选择哪种取决于具体的应用场景、模型类型以及对误差的容忍度。在实践中，还可能结合正则化项（如L1或L2正则化）来避免过拟合，优化模型泛化能力。
复制链接

扫一扫

专栏目录

易之阴阳 CSDN认证博客专家 CSDN认证企业博客

码龄15年

334: 原创

8777: 周排名

6447: 总排名

15万+: 访问

: 等级

6159: 积分

2245: 粉丝

2714: 获赞

36: 评论

1767: 收藏

私信

关注

热门文章

分类专栏

最新评论

人工智能技术中的多模态融合（Multimodal Fusion）
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
多模态对话系统的人工智能技术特点
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
PyTorch 机器学习中的神经网络算法人脸识别模型定义、训练和应用
易之阴阳: https://blog.csdn.net/liuzk423/article/details/138664752
PyTorch 机器学习中的神经网络算法人脸识别模型定义、训练和应用
k丿k: 在得到anchor,positive和negative之后，只需要在计算损失部分把所需的参数改成这三个就行了吗？
PyTorch 机器学习中的神经网络算法人脸识别模型定义、训练和应用
易之阴阳: 使用三元组损失函数时，关键在于如何恰当地选取`anchor`、`positive`和`negative`这三个样本。下面是具体的操作步骤和建议： 1. 定义样本： - Anchor (A)：这是你要定位或学习的样本，通常是一个特征向量，比如一个人脸图像的嵌入向量。 - Positive (P)：这是与Anchor属于同一类别的另一个样本的特征向量。例如，在人脸识别任务中，如果Anchor是一个人的图像，那么Positive可以是同一个人的另一张图像的特征向量。 - Negative (N)：这是与Anchor不属于同一类别的样本的特征向量。在上述人脸识别的例子中，Negative可以是另一个人的图像特征向量。 2. 计算距离： - 你需要计算Anchor与Positive之间的距离 \(d(A, P)\)，以及Anchor与Negative之间的距离 \(d(A, N)\)。常见的距离度量有欧氏距离、余弦相似度或者是经过特定变换后的距离，如在FaceNet中使用的L2归一化后的距离。 3. 确定边界值（margin）： - 选择一个合适的边界值（\(margin\)），这个值决定了Positive和Negative样本在嵌入空间中需要拉开的最小差距。常见的初始设置可能是1.0，但实际值应根据任务和数据特性调整。 4. 计算损失： - 使用公式 \(L = \max(0, margin + d(A, P) - d(A, N))\) 计算三元组损失。如果 \(d(A, P) - d(A, N)\) 小于 \(margin\)，则损失为0，意味着模型已经满足了我们的要求；反之，损失大于0，模型需要进一步优化以拉近Anchor与Positive的距离，同时推远Anchor与Negative的距离。 5. 采样策略： - 选择有效的采样策略对于三元组损失函数至关重要。硬负例挖掘（hard negative mining）是一种常用的策略，即专门挑选那些难以区分的Negative样本，这些样本与Anchor的距离很接近，这有助于模型学习更精细的特征。 - 而软采样（semi-hard negative mining）则是选择那些比Positive样本离Anchor稍远一点的Negative样本，这样的样本更有针对性地帮助模型提升。 6. 实施训练： - 在训练循环中，你需要为每个批次（batch）内的每个Anchor找到相应的Positive和Negative样本，计算损失，然后反向传播以更新模型的权重。确保在整个过程中监控损失函数和模型性能，以便适时调整超参数，如学习率、margin值以及采样策略。自己再挖掘挖掘，希望有益！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。