【数学基础】交叉熵损失函数与Softmax

本文介绍了二分类和多分类交叉熵损失的计算原理,强调了其在分类任务中对预测概率与真实标签匹配度的敏感性。同时,详细阐述了Softmax函数的作用,它将多分类结果转换为概率分布,确保预测概率的非负性和总和为1的特性。通过对实例的计算,展示了如何使用交叉熵损失评估模型性能,并理解其在概率接近和远离真实标签时的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、二分类交叉熵损失

  • L=1n∑inLiL = \frac{1}{n}\sum_{i}^n L_iL=n1inLi备注LiL_iLi 表示第 iii 个样本计算的损失 losslossloss
  • Li=−[yilog⁡(pi)+(1−yi)log⁡(1−pi)]L_i=-[y_i\log(p_i)+(1-y_i)\log(1-p_i)]Li=[yilog(pi)+(1yi)log(1pi)]

其中:

  • yiy_iyi — 表示样本 iii 的label,正类为 111 ,负类为 000
  • pip_ipi — 表示样本 iii 预测为正类的概率,同理 (1−pi)(1-p_i)(1pi) 则为样本预测为负类的概率

下面对以上公式进行简化:

  • 当样本 yiy_iyi 的label为1时:Li=−yilog⁡(pi)L_i=-y_i\log(p_i)Li=yilog(pi)
  • 当样本 yiy_iyi 的label为0时:Li=−(1−yi)log⁡(1−pi)L_i=-(1-y_i)\log(1-p_i)Li=(1yi)log(1pi)
    交叉熵损失函数分析

由图片可推得:

  • yiy_iyi 为1,则 pip_ipi 越大,losslossloss越小,反之pip_ipi 越小,losslossloss越大;
  • yiy_iyi 为0,则 pip_ipi 越小,1−pi1-p_i1pi 则越小,losslossloss越大,反之亦然;

小结:交叉熵损失的特点就是当yiy_iyipip_ipi 非常接近时,losslossloss 会很小,而当yiy_iyipip_ipi 相差非常大时,losslossloss 会非常大。这是由 log⁡\loglog 对数函数的性质决定的。

二、多分类交叉熵损失

多分类的交叉熵损失是对二分类的一个扩展,公式如下:
L=1n∑inLiL = \frac{1}{n}\sum_{i}^n L_iL=n1inLi
Li=−∑cMyiclog⁡picL_i = -\sum_{c}^M y_i{_c}\log p_i{_c}Li=cMyiclogpic

其中:

  • MMM — 类别数量
  • yicy_i{_c}yic — 符号函数( 表示 000111 ),如果样本 iii 的真实类别等于 cccyicy_i{_c}yic111 ,否则取 000
  • picp_i{_c}pic — 观测样本 iii 属于类别 ccc 的预测概率

下面我们利用这个表达式去计算一下模型的 LossLossLoss

  • L1=−(0×log⁡0.3+0×log⁡0.3+1×log⁡0.4)=0.91L_1 = -(0\times\log 0.3+0\times\log 0.3+1\times\log 0.4)=0.91L1=0×log0.3+0×log0.3+1×log0.4=0.91
  • L2=−(0×log⁡0.3+1×log⁡0.4+0×log⁡0.3)=0.91L_2 = -(0\times\log 0.3+1\times\log 0.4+0\times\log 0.3)=0.91L2=0×log0.3+1×log0.4+0×log0.3=0.91
  • L3=−(1×log⁡0.1+0×log⁡0.2+0×log⁡0.7)=2.30L_3 = -(1\times\log 0.1+0\times\log 0.2+0\times\log 0.7)=2.30L3=1×log0.1+0×log0.2+0×log0.7=2.30

losslossloss 求均值:

  • L=0.91+0.91+2.303=1.37L = {0.91+0.91+2.30 \over 3}=1.37L=30.91+0.91+2.30=1.37

三、Softmax函数

概述

softmax函数,又称归一化指数函数,它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。
基于概率的两个性质:

  1. 预测的概率为非负数
  2. 种预测结果概率之和等于1。
    在这里插入图片描述

softmax就是将在负无穷到正无穷上的预测结果按照这两步转换为概率。

p(y∣x)=efy∑c=1Cefyp(y|x)={e^{f_y} \over \sum_{c=1}^C e^{f_y}}p(yx)=c=1Cefyefy

  • 分子:通过指数函数,将实数输出映射到零到正无穷;
  • 分母:将所有结果相加,进行归一化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

suppppper

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值