AI学习_交叉熵损失函数_方差损失函数_基础

交叉熵损失函数常用于分类问题,其特点是值域广泛,易于避免梯度消失,初期能有效纠正模型错误。然而,在后期模型稳定后,曲线变化缓和,不利于进一步优化。对于多分类问题,参数数量会增加。方差损失函数适用于回归问题,其优势在于稳定梯度和对偏离值的弱化处理,但过于关注整体趋势可能导致小损失值时梯度过大,不利于收敛。
摘要由CSDN通过智能技术生成

交叉熵损失函数

一种用于分类问题1的损失函数2,原理为:将模型输出的概率,与标准答案3的值对比。
和正确答案越接近,则计算结果:交叉熵越低,模型质量越好
和错误答案越接近,则交叉熵越大,模型质量越差

下图为交叉熵损失函数的图像
横轴为“输出与标答的符合程度”,横轴为“交叉熵大小”
越符合时的交叉熵
优点:
①值域(0 ~ +∞),且斜率变化在整个定义域中都很明显,不容易出现梯度消失
②在模型学习的初期阶段,容易出错的,此损失函数的损失值保持在很高的程度,有利于模型在初期时自我纠正
——————————
缺点:
①在模型学习的后期阶段,模型趋于平稳,曲线的变化率也变低,反而不利于后期进一步纠正模型
②随着分类数目的增大,分类层的线性变化矩阵参数也随着增大(多分类问题时)(?)
③对于封闭集(?)分类问题,学习到的特征是可分离的,但对于开放集(?)人脸识别问题,所学特征却没有足够的区分性(?)
④擅长于学习类间的信息,因为它采用了类间竞争机制(?),它只关心对于正确标签预测概率的准确性,忽略了其他非正确标签的差异,导致学习到的特征比较散
【优缺点来源链接: https://zhuanlan.zhihu.com/p/35709485

小概念:独热(one hot/一位有效编码)

在交叉熵损失函数中,意为用0、1来表示唯一的正确标准答案
如三种动物识别,猫、狗、猪
在任意一张图片的正确结果中,只有一个作为正确答案

[1,0,0]代表此图片正确答案为“猫”

在交叉熵损失函数中的使用如下图:
one_hot图解

方差损失函数

一种用于回归问题4的损失函数,原理为:计算模型输出的值,与需要回归的值之间的,再进行平方。得到模型输出与实际值的损失
图像如下
横轴为“输出与实际值的偏离程度(注意±)”,横轴为“方差损失大小”

MSELoss均方误差图像
优点:
①无论对于什么样的输入值,都有着稳定的梯度,相比于Re_lu(线性整流函数)。不容易梯度爆炸(?)
②对于个别偏离趋势的值,会随着偏离得越远而降低此值的影响。也就是说,更关注数据整体的趋势(惩罚值是固定的)
缺点:
①大部分情况下梯度5保持相等(虽然在y−f(x)=0【曲线完美符合时】导数不存在),这意味着即使对于小的损失值,其梯度也是大的。这不利于函数的收敛和模型的学习。


  1. 输出为概率的问题 ↩︎

  2. 监督学习中会用到此函数 ↩︎

  3. (转化为1/0、即:正确答案/非正确答案) ↩︎

  4. 输出为具体值的问题 ↩︎

  5. 高维时的导数和 ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值