六个常用损失函数
定义:损失函数针对单个样本而言,代价函数针对整个训练集的所有损失函数期望。
一.均方差损失(Mean Squared Error Loss)
基本形式: J M S E = 1 N ∑ i = 1 N ( y i − y i ^ ) 2 J_{MSE}=\frac{1}{N} \sum_{i=1}^{N}(y_{i}-\hat{y_{i}})^2 JMSE=N1∑i=1N(yi−yi^)2
模型假设服从高斯分布,与极大似然估计本质一致,梯度下降较 M A E MAE MAE 快。
二.平均绝对误差损失 (Mean Absolute Error Loss)
基本形式: J M A E = 1 N ∑ i = 1 N ∣ y i − y i ^ ∣ J_{MAE}=\frac{1}{N}\sum_{i=1}^{N}|y_{i}-\hat{y_{i}}| JMAE=N1∑i=1N∣yi−yi^∣
模型假设服从拉普拉斯分布。
M S E MSE MSE 与 M A E MAE MAE 的比较: M S E MSE MSE 更快收敛,但是 o u t l i e r outlier outlier 对于其影响较大。
三.Huber Loss
模型在误差较大时采用
M
A
E
MAE
MAE,误差较小则为
M
S
E
MSE
MSE。
四.分位数损失(Quantile Loss)
r 为分位系数。
这个损失函数是一个分段的函数 ,将 y i > y i ^ y_{i}>\hat{y_{i}} yi>yi^(高估) 和 y i ≤ y i ^ y_{i}\le \hat{y_{i}} yi≤yi^(低估) 两种情况分开来,并分别给予不同的系数。当 r < 0.5 r<0.5 r<0.5 时,低估的损失要比高估的损失更大,反过来当 r > 0.5 r>0.5 r>0.5 时,高估的损失比低估的损失大;分位数损失实现了分别用不同的系数控制高估和低估的损失,进而实现分位数回归。特别地,当 r = 0.5 r=0.5 r=0.5 时,分位数损失退化为 M A E MAE MAE 损失,从这里可以看出 M A E MAE MAE 损失实际上是分位数损失的一个特例 — 中位数回归(这也可以解释为什么 M A E MAE MAE 损失对 o u t l i e r outlier outlier 更 r o b u s t : M S E robust:MSE robust:MSE 回归期望值, M A E MAE MAE 回归中位数,通常 o u t l i e r outlier outlier 对中位数的影响比对期望值的影响小)。
五.交叉熵损失(Cross Entropy Loss)
上文介绍的几种损失函数都是适用于回归问题损失函数,对于分类问题,最常用的损失函数是交叉熵损失函数 Cross Entropy Loss。
二分类: