ML- error Loss Function

最新推荐文章于 2021-08-13 20:50:55 发布

kakak_

最新推荐文章于 2021-08-13 20:50:55 发布

阅读量263

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/105075783

版权

Machine Learning 专栏收录该内容

38 篇文章 2 订阅

订阅专栏

ERROR

损失函数（Loss Function）：是定义在单个样本上的，是指一个样本的误差。

Loss Function

回归损失 $L (y, f (x)) = y - f (x)$

残差 𝑦−𝑓(𝑥)来度量二者的不一致程度。

平方损失函数（quadratic loss function）

$L(y,f(x)) =(y-f(x))^2$

误差被不同程度放大或缩小。
平方损失缺点：对于异常点会施以较大的惩罚，因此不够robust。
绝对值损失函数（absolute loss function）

$L (y, f (x)) = ∣ y - f (x) ∣$

正确表示误差程度。
对于较多异常点，绝对值损失表现较好，但绝对值损失在𝑦−𝑓(𝑥)=0处不连续可导，因此不容易优化。
Huber loss
$=\left\{\begin{matrix}\frac12[y-f(x)]^2 & \qquad |y-f(x)| \leq \delta \\ \delta|y-f(x)| - \frac12\delta^2 & \qquad |y-f(x)| > \delta\end{matrix}\right.$
Huber损失综合二者，当|𝑦−𝑓(𝑥)|小于一个事先指定的值𝛿时，变为平方损失，大于𝛿时，则变成类似于绝对值损失，因此也是比较robust的损失函数。

分类损失 $L (y, f (x)) = y f (x)$

𝑦𝑓(𝑥) 被称为margin，其作用类似于回归问题中的残差 𝑦−𝑓(𝑥)。最小化损失函数也可以看作是最大化 margin 的过程。

0-1损失函数（0-1 loss function）
预测错误时，损失函数值为1，预测正确时，损失函数值为0，该损失函数不考虑预测值和真实值的误差程度，每个错分类点都施以相同的惩罚， 𝑚𝑎𝑟𝑔𝑖𝑛→−∞的点也并不会受到大的关注。
$\left\{\begin{matrix} 0 \qquad \text{if} \;\; yf(x)\geq0 \\ 1 \qquad \text{if} \;\; yf(x) < 0\end{matrix}\right.$
log对数损失函数（logistic loss function）

$L(y,f(x)) = log(1+e^{-yf(x)})$

P(Y|X)：在当前模型的基础上，样本X预测值为Y即预测正确的概率。使用Sigmoid函数表示预测概率：
$\frac{1}{1+e^{-yf(x)}}$
极大似然
$\left(\prod\limits_{i=1}^m P(y_i|x_i)\right) = max \left(\prod\limits_{i=1}^m \frac{1}{1+e^{-y_if(x_i)}}\right)$
两边取对数，又因为是损失函数，将极大转为极小：
$max\left(\sum\limits_{i=1}^m logP(y_i|x_i)\right) = min \left(\sum\limits_{i=1}^m log({1+e^{-y_if(x_i)}})\right)$
交叉熵损失 (cross entropy loss)：

二分类问题中logistic loss和交叉熵损失是等价的，二者区别只是标签y的定义不同
$\in \left\{0,1\right\}$ ：
$\frac{1}{1+e^{-f(x)}}+(1-y)(1-\frac{1}{1+e^{-f(x)}})$

$\sum\limits_{i=1}^m \big\{ -y_i\log g(x_i) - (1-y_i)\log (1-g(x_i)\big\}$
指数损失函数(Exponential loss)

$L(y,f(x)) = e^{-yf(x)}$

AdaBoost中使用的损失函数，和squared loss一样，对异常点敏感，不够robust。
Hinge loss

$L (y, f (x)) = m a x (0, 1 - y f (x))$

带软间隔svm的优化问题：

$\mathop{min}\limits_{\boldsymbol{w},b,\xi} \frac12 ||\boldsymbol{w}||^2 + C\sum\limits_{i=1}^m\xi_i \\$

$\xi_i \geqslant 1 - y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b)$

$\xi_i \geqslant0$
即转化为：
$min\; C\sum\limits_{i=1}^m max(0,\, 1-y_if(x_i)) + \frac12 ||\boldsymbol{w}||^2 \quad {\large \propto} \quad min\; \sum\limits_{i=1}^m \underbrace{max(0,\, 1-y_if(x_i))}_{hinge \; loss} + \lambda ||\boldsymbol{w}||^2$

svm中使用的损失函数，自带参数 𝑤 的𝐿2 正则化。
modified Huber loss

$\left \{\begin{matrix} max(0,1-yf(x))^2 \qquad if \;\;yf(x)\geq-1 \\ \qquad-4yf(x) \qquad\qquad\;\; if\;\; yf(x)<-1\end{matrix}\right.\qquad$

结合了hinge loss和logistic loss的优点，既能在𝑦𝑓(𝑥)>1时产生稀疏解提高训练效率，又能对(𝑦𝑓(𝑥)<1)的样本惩罚以线性增加，这意味着受异常点的干扰较少，比较robust。

在这里插入图片描述
logistic loss和hinge loss是线性增长，exponential loss是以指数增长。
对于modified huber loss：

kakak_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML- error Loss Function

ERROR损失函数（Loss Function）：是定义在单个样本上的，是指一个样本的误差。Loss Function回归损失 L(y,f(x))=y−f(x)L(y,f(x)) =y-f(x)L(y,f(x))=y−f(x)残差 ????−????(????)来度量二者的不一致程度。平方损失函数（quadratic loss function）L(y,f(x))=(y−f(x))2L(y,f(...
复制链接

扫一扫