AI学习_交叉熵损失函数_方差损失函数_基础

麦没了块QAQ

已于 2023-05-17 18:29:26 修改

阅读量855

点赞数 1

分类专栏：损失函数文章标签：学习人工智能深度学习

于 2022-11-10 01:19:04 首次发布

本文链接：https://blog.csdn.net/qq_41848886/article/details/127780558

版权

损失函数专栏收录该内容

2 篇文章 0 订阅

订阅专栏

交叉熵损失函数常用于分类问题，其特点是值域广泛，易于避免梯度消失，初期能有效纠正模型错误。然而，在后期模型稳定后，曲线变化缓和，不利于进一步优化。对于多分类问题，参数数量会增加。方差损失函数适用于回归问题，其优势在于稳定梯度和对偏离值的弱化处理，但过于关注整体趋势可能导致小损失值时梯度过大，不利于收敛。

摘要由CSDN通过智能技术生成

交叉熵损失函数

一种用于分类问题¹的损失函数²，原理为：将模型输出的概率，与标准答案³的值对比。
和正确答案越接近，则计算结果：交叉熵越低，模型质量越好
和错误答案越接近，则交叉熵越大，模型质量越差

下图为交叉熵损失函数的图像
横轴为“输出与标答的符合程度”，横轴为“交叉熵大小”
越符合时的交叉熵
优点：
①值域（0 ~ +∞），且斜率变化在整个定义域中都很明显，不容易出现梯度消失
②在模型学习的初期阶段，容易出错的，此损失函数的损失值保持在很高的程度，有利于模型在初期时自我纠正
——————————
缺点：
①在模型学习的后期阶段，模型趋于平稳，曲线的变化率也变低，反而不利于后期进一步纠正模型
②随着分类数目的增大，分类层的线性变化矩阵参数也随着增大（多分类问题时）（？）
③对于封闭集(?)分类问题，学习到的特征是可分离的，但对于开放集(?)人脸识别问题，所学特征却没有足够的区分性(?)
④擅长于学习类间的信息，因为它采用了类间竞争机制(?)，它只关心对于正确标签预测概率的准确性，忽略了其他非正确标签的差异，导致学习到的特征比较散
【优缺点来源链接: https://zhuanlan.zhihu.com/p/35709485】

小概念：独热（one hot/一位有效编码）

在交叉熵损失函数中，意为用0、1来表示唯一的正确标准答案
如三种动物识别，猫、狗、猪
在任意一张图片的正确结果中，只有一个作为正确答案
如
[1,0,0]代表此图片正确答案为“猫”

在交叉熵损失函数中的使用如下图：
one_hot图解

方差损失函数

一种用于回归问题⁴的损失函数，原理为：计算模型输出的值，与需要回归的值之间的差，再进行平方。得到模型输出与实际值的损失
图像如下
横轴为“输出与实际值的偏离程度(注意±)”，横轴为“方差损失大小”

MSELoss均方误差图像
优点：
①无论对于什么样的输入值，都有着稳定的梯度，相比于Re_lu(线性整流函数)。不容易梯度爆炸(?)
②对于个别偏离趋势的值，会随着偏离得越远而降低此值的影响。也就是说，更关注数据整体的趋势（惩罚值是固定的）
缺点：
①大部分情况下梯度⁵保持相等（虽然在y−f(x)=0【曲线完美符合时】导数不存在），这意味着即使对于小的损失值，其梯度也是大的。这不利于函数的收敛和模型的学习。