ML- error Loss Function

ERROR

损失函数(Loss Function):是定义在单个样本上的,是指一个样本的误差。

Loss Function

回归损失 L ( y , f ( x ) ) = y − f ( x ) L(y,f(x)) =y-f(x) L(y,f(x))=yf(x)

残差 𝑦−𝑓(𝑥)来度量二者的不一致程度。

  • 平方损失函数(quadratic loss function)

    L ( y , f ( x ) ) = ( y − f ( x ) ) 2 L(y,f(x)) =(y-f(x))^2 L(y,f(x))=(yf(x))2

    误差被不同程度放大或缩小。
    平方损失缺点:对于异常点会施以较大的惩罚,因此不够robust。

  • 绝对值损失函数(absolute loss function)

    L ( y , f ( x ) ) = ∣ y − f ( x ) ∣ L(y,f(x)) = |y-f(x)| L(y,f(x))=yf(x)

    正确表示误差程度。
    对于较多异常点,绝对值损失表现较好,但绝对值损失在𝑦−𝑓(𝑥)=0处不连续可导,因此不容易优化。

  • Huber loss
    L ( y , f ( x ) ) = { 1 2 [ y − f ( x ) ] 2 ∣ y − f ( x ) ∣ ≤ δ δ ∣ y − f ( x ) ∣ − 1 2 δ 2 ∣ y − f ( x ) ∣ > δ L(y,f(x)) =\left\{\begin{matrix}\frac12[y-f(x)]^2 & \qquad |y-f(x)| \leq \delta \\ \delta|y-f(x)| - \frac12\delta^2 & \qquad |y-f(x)| > \delta\end{matrix}\right. L(y,f(x))={21[yf(x)]2δyf(x)21δ2yf(x)δyf(x)>δ
    Huber损失综合二者,当|𝑦−𝑓(𝑥)|小于一个事先指定的值𝛿时,变为平方损失,大于𝛿时,则变成类似于绝对值损失,因此也是比较robust的损失函数。
    在这里插入图片描述

分类损失 L ( y , f ( x ) ) = y f ( x ) L(y,f(x)) =yf(x) L(y,f(x))=yf(x)

𝑦𝑓(𝑥) 被称为margin,其作用类似于回归问题中的残差 𝑦−𝑓(𝑥)。最小化损失函数也可以看作是最大化 margin 的过程。

  • 0-1损失函数(0-1 loss function)
    预测错误时,损失函数值为1,预测正确时,损失函数值为0,该损失函数不考虑预测值和真实值的误差程度,每个错分类点都施以相同的惩罚, 𝑚𝑎𝑟𝑔𝑖𝑛→−∞的点也并不会受到大的关注。
    L ( y , f ( x ) ) = { 0 if      y f ( x ) ≥ 0 1 if      y f ( x ) < 0 L(y,f(x)) = \left\{\begin{matrix} 0 \qquad \text{if} \;\; yf(x)\geq0 \\ 1 \qquad \text{if} \;\; yf(x) < 0\end{matrix}\right. L(y,f(x))={0ifyf(x)01ifyf(x)<0

  • log对数损失函数(logistic loss function)

    L ( y , f ( x ) ) = l o g ( 1 + e − y f ( x ) ) L(y,f(x)) = log(1+e^{-yf(x)}) L(y,f(x))=log(1+eyf(x))

    P(Y|X):在当前模型的基础上,样本X预测值为Y即预测正确的概率。使用Sigmoid函数表示预测概率:
    P ( y ∣ x ) = 1 1 + e − y f ( x ) P(y|x) = \frac{1}{1+e^{-yf(x)}} P(yx)=1+eyf(x)1
    极大似然
    m a x ( ∏ i = 1 m P ( y i ∣ x i ) ) = m a x ( ∏ i = 1 m 1 1 + e − y i f ( x i ) ) max \left(\prod\limits_{i=1}^m P(y_i|x_i)\right) = max \left(\prod\limits_{i=1}^m \frac{1}{1+e^{-y_if(x_i)}}\right) max(i=1mP(yixi))=max(i=1m1+eyif(xi)1)
    两边取对数,又因为是损失函数,将极大转为极小:
    m a x ( ∑ i = 1 m l o g P ( y i ∣ x i ) ) = m i n ( ∑ i = 1 m l o g ( 1 + e − y i f ( x i ) ) ) max\left(\sum\limits_{i=1}^m logP(y_i|x_i)\right) = min \left(\sum\limits_{i=1}^m log({1+e^{-y_if(x_i)}})\right) max(i=1mlogP(yixi))=min(i=1mlog(1+eyif(xi)))

  • 交叉熵损失 (cross entropy loss):

    二分类问题中logistic loss和交叉熵损失是等价的,二者区别只是标签y的定义不同
    y ∈ { 0 , 1 } y \in \left\{0,1\right\} y{0,1}
    P ( y ∣ x ) = y 1 1 + e − f ( x ) + ( 1 − y ) ( 1 − 1 1 + e − f ( x ) ) P(y|x) =y \frac{1}{1+e^{-f(x)}}+(1-y)(1-\frac{1}{1+e^{-f(x)}}) P(yx)=y1+ef(x)1+(1y)(11+ef(x)1)

    ∑ i = 1 m { − y i log ⁡ g ( x i ) − ( 1 − y i ) log ⁡ ( 1 − g ( x i ) } \sum\limits_{i=1}^m \big\{ -y_i\log g(x_i) - (1-y_i)\log (1-g(x_i)\big\} i=1m{yilogg(xi)(1yi)log(1g(xi)}

  • 指数损失函数(Exponential loss)

    L ( y , f ( x ) ) = e − y f ( x ) L(y,f(x)) = e^{-yf(x)} L(y,f(x))=eyf(x)

    AdaBoost中使用的损失函数,和squared loss一样,对异常点敏感,不够robust。

  • Hinge loss

    L ( y , f ( x ) ) = m a x ( 0 , 1 − y f ( x ) ) L(y,f(x)) = max(0,1-yf(x)) L(y,f(x))=max(0,1yf(x))

    带软间隔svm的优化问题:

    m i n w , b , ξ 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m ξ i \mathop{min}\limits_{\boldsymbol{w},b,\xi} \frac12 ||\boldsymbol{w}||^2 + C\sum\limits_{i=1}^m\xi_i \\ w,b,ξmin21w2+Ci=1mξi

    ξ i ⩾ 1 − y i ( w T x i + b ) \xi_i \geqslant 1 - y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b) ξi1yi(wTxi+b)

    ξ i ⩾ 0 \xi_i \geqslant0 ξi0
    即转化为:
    m i n    C ∑ i = 1 m m a x ( 0 ,   1 − y i f ( x i ) ) + 1 2 ∣ ∣ w ∣ ∣ 2 ∝ m i n    ∑ i = 1 m m a x ( 0 ,   1 − y i f ( x i ) ) ⏟ h i n g e    l o s s + λ ∣ ∣ w ∣ ∣ 2 min\; C\sum\limits_{i=1}^m max(0,\, 1-y_if(x_i)) + \frac12 ||\boldsymbol{w}||^2 \quad {\large \propto} \quad min\; \sum\limits_{i=1}^m \underbrace{max(0,\, 1-y_if(x_i))}_{hinge \; loss} + \lambda ||\boldsymbol{w}||^2 minCi=1mmax(0,1yif(xi))+21w2mini=1mhingeloss max(0,1yif(xi))+λw2

    svm中使用的损失函数,自带参数 𝑤 的𝐿2 正则化。

  • modified Huber loss

    L ( y , f ( x ) ) = { m a x ( 0 , 1 − y f ( x ) ) 2 i f      y f ( x ) ≥ − 1 − 4 y f ( x )      i f      y f ( x ) < − 1 L(y,f(x)) = \left \{\begin{matrix} max(0,1-yf(x))^2 \qquad if \;\;yf(x)\geq-1 \\ \qquad-4yf(x) \qquad\qquad\;\; if\;\; yf(x)<-1\end{matrix}\right.\qquad L(y,f(x))={max(0,1yf(x))2ifyf(x)14yf(x)ifyf(x)<1

    结合了hinge loss和logistic loss的优点,既能在𝑦𝑓(𝑥)>1时产生稀疏解提高训练效率,又能对(𝑦𝑓(𝑥)<1)的样本惩罚以线性增加,这意味着受异常点的干扰较少,比较robust。

在这里插入图片描述
logistic loss和hinge loss是线性增长,exponential loss是以指数增长。
对于modified huber loss:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值