ERROR
损失函数(Loss Function):是定义在单个样本上的,是指一个样本的误差。
Loss Function
回归损失 L ( y , f ( x ) ) = y − f ( x ) L(y,f(x)) =y-f(x) L(y,f(x))=y−f(x)
残差 𝑦−𝑓(𝑥)来度量二者的不一致程度。
-
平方损失函数(quadratic loss function)
L ( y , f ( x ) ) = ( y − f ( x ) ) 2 L(y,f(x)) =(y-f(x))^2 L(y,f(x))=(y−f(x))2
误差被不同程度放大或缩小。
平方损失缺点:对于异常点会施以较大的惩罚,因此不够robust。 -
绝对值损失函数(absolute loss function)
L ( y , f ( x ) ) = ∣ y − f ( x ) ∣ L(y,f(x)) = |y-f(x)| L(y,f(x))=∣y−f(x)∣
正确表示误差程度。
对于较多异常点,绝对值损失表现较好,但绝对值损失在𝑦−𝑓(𝑥)=0处不连续可导,因此不容易优化。 -
Huber loss
L ( y , f ( x ) ) = { 1 2 [ y − f ( x ) ] 2 ∣ y − f ( x ) ∣ ≤ δ δ ∣ y − f ( x ) ∣ − 1 2 δ 2 ∣ y − f ( x ) ∣ > δ L(y,f(x)) =\left\{\begin{matrix}\frac12[y-f(x)]^2 & \qquad |y-f(x)| \leq \delta \\ \delta|y-f(x)| - \frac12\delta^2 & \qquad |y-f(x)| > \delta\end{matrix}\right. L(y,f(x))={21[y−f(x)]2δ∣y−f(x)∣−21δ2∣y−f(x)∣≤δ∣y−f(x)∣>δ
Huber损失综合二者,当|𝑦−𝑓(𝑥)|小于一个事先指定的值𝛿时,变为平方损失,大于𝛿时,则变成类似于绝对值损失,因此也是比较robust的损失函数。
分类损失 L ( y , f ( x ) ) = y f ( x ) L(y,f(x)) =yf(x) L(y,f(x))=yf(x)
𝑦𝑓(𝑥) 被称为margin,其作用类似于回归问题中的残差 𝑦−𝑓(𝑥)。最小化损失函数也可以看作是最大化 margin 的过程。
-
0-1损失函数(0-1 loss function)
预测错误时,损失函数值为1,预测正确时,损失函数值为0,该损失函数不考虑预测值和真实值的误差程度,每个错分类点都施以相同的惩罚, 𝑚𝑎𝑟𝑔𝑖𝑛→−∞的点也并不会受到大的关注。
L ( y , f ( x ) ) = { 0 if y f ( x ) ≥ 0 1 if y f ( x ) < 0 L(y,f(x)) = \left\{\begin{matrix} 0 \qquad \text{if} \;\; yf(x)\geq0 \\ 1 \qquad \text{if} \;\; yf(x) < 0\end{matrix}\right. L(y,f(x))={0ifyf(x)≥01ifyf(x)<0 -
log对数损失函数(logistic loss function)
L ( y , f ( x ) ) = l o g ( 1 + e − y f ( x ) ) L(y,f(x)) = log(1+e^{-yf(x)}) L(y,f(x))=log(1+e−yf(x))
P(Y|X):在当前模型的基础上,样本X预测值为Y即预测正确的概率。使用Sigmoid函数表示预测概率:
P ( y ∣ x ) = 1 1 + e − y f ( x ) P(y|x) = \frac{1}{1+e^{-yf(x)}} P(y∣x)=1+e−yf(x)1
极大似然
m a x ( ∏ i = 1 m P ( y i ∣ x i ) ) = m a x ( ∏ i = 1 m 1 1 + e − y i f ( x i ) ) max \left(\prod\limits_{i=1}^m P(y_i|x_i)\right) = max \left(\prod\limits_{i=1}^m \frac{1}{1+e^{-y_if(x_i)}}\right) max(i=1∏mP(yi∣xi))=max(i=1∏m1+e−yif(xi)1)
两边取对数,又因为是损失函数,将极大转为极小:
m a x ( ∑ i = 1 m l o g P ( y i ∣ x i ) ) = m i n ( ∑ i = 1 m l o g ( 1 + e − y i f ( x i ) ) ) max\left(\sum\limits_{i=1}^m logP(y_i|x_i)\right) = min \left(\sum\limits_{i=1}^m log({1+e^{-y_if(x_i)}})\right) max(i=1∑mlogP(yi∣xi))=min(i=1∑mlog(1+e−yif(xi))) -
交叉熵损失 (cross entropy loss):
二分类问题中logistic loss和交叉熵损失是等价的,二者区别只是标签y的定义不同
y ∈ { 0 , 1 } y \in \left\{0,1\right\} y∈{0,1}:
P ( y ∣ x ) = y 1 1 + e − f ( x ) + ( 1 − y ) ( 1 − 1 1 + e − f ( x ) ) P(y|x) =y \frac{1}{1+e^{-f(x)}}+(1-y)(1-\frac{1}{1+e^{-f(x)}}) P(y∣x)=y1+e−f(x)1+(1−y)(1−1+e−f(x)1)∑ i = 1 m { − y i log g ( x i ) − ( 1 − y i ) log ( 1 − g ( x i ) } \sum\limits_{i=1}^m \big\{ -y_i\log g(x_i) - (1-y_i)\log (1-g(x_i)\big\} i=1∑m{−yilogg(xi)−(1−yi)log(1−g(xi)}
-
指数损失函数(Exponential loss)
L ( y , f ( x ) ) = e − y f ( x ) L(y,f(x)) = e^{-yf(x)} L(y,f(x))=e−yf(x)
AdaBoost中使用的损失函数,和squared loss一样,对异常点敏感,不够robust。
-
Hinge loss
L ( y , f ( x ) ) = m a x ( 0 , 1 − y f ( x ) ) L(y,f(x)) = max(0,1-yf(x)) L(y,f(x))=max(0,1−yf(x))
带软间隔svm的优化问题:
m i n w , b , ξ 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m ξ i \mathop{min}\limits_{\boldsymbol{w},b,\xi} \frac12 ||\boldsymbol{w}||^2 + C\sum\limits_{i=1}^m\xi_i \\ w,b,ξmin21∣∣w∣∣2+Ci=1∑mξi
ξ i ⩾ 1 − y i ( w T x i + b ) \xi_i \geqslant 1 - y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b) ξi⩾1−yi(wTxi+b)
ξ i ⩾ 0 \xi_i \geqslant0 ξi⩾0
即转化为:
m i n C ∑ i = 1 m m a x ( 0 , 1 − y i f ( x i ) ) + 1 2 ∣ ∣ w ∣ ∣ 2 ∝ m i n ∑ i = 1 m m a x ( 0 , 1 − y i f ( x i ) ) ⏟ h i n g e l o s s + λ ∣ ∣ w ∣ ∣ 2 min\; C\sum\limits_{i=1}^m max(0,\, 1-y_if(x_i)) + \frac12 ||\boldsymbol{w}||^2 \quad {\large \propto} \quad min\; \sum\limits_{i=1}^m \underbrace{max(0,\, 1-y_if(x_i))}_{hinge \; loss} + \lambda ||\boldsymbol{w}||^2 minCi=1∑mmax(0,1−yif(xi))+21∣∣w∣∣2∝mini=1∑mhingeloss max(0,1−yif(xi))+λ∣∣w∣∣2svm中使用的损失函数,自带参数 𝑤 的𝐿2 正则化。
-
modified Huber loss
L ( y , f ( x ) ) = { m a x ( 0 , 1 − y f ( x ) ) 2 i f y f ( x ) ≥ − 1 − 4 y f ( x ) i f y f ( x ) < − 1 L(y,f(x)) = \left \{\begin{matrix} max(0,1-yf(x))^2 \qquad if \;\;yf(x)\geq-1 \\ \qquad-4yf(x) \qquad\qquad\;\; if\;\; yf(x)<-1\end{matrix}\right.\qquad L(y,f(x))={max(0,1−yf(x))2ifyf(x)≥−1−4yf(x)ifyf(x)<−1
结合了hinge loss和logistic loss的优点,既能在𝑦𝑓(𝑥)>1时产生稀疏解提高训练效率,又能对(𝑦𝑓(𝑥)<1)的样本惩罚以线性增加,这意味着受异常点的干扰较少,比较robust。
logistic loss和hinge loss是线性增长,exponential loss是以指数增长。
对于modified huber loss: