机器学习中常见的损失函数

最新推荐文章于 2024-06-07 07:40:47 发布

意念回复

最新推荐文章于 2024-06-07 07:40:47 发布

阅读量920

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_39910711/article/details/82939789

版权

机器学习专栏收录该内容

73 篇文章 276 订阅

订阅专栏

1 损失函数简介

2 log对数损失函数（逻辑回归）

3 平方损失函数（最小二乘法, Ordinary Least Squares ）

1 损失函数简介

损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别，结构风险损失函数是指经验风险损失函数加上正则项。通常可以表示成如下式子：

其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，后面的Φ是正则化项或者叫惩罚项，它可以是L1，也可以是L2，或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θ值。下面主要列出几种常见的损失函数：

log对数损失函数（逻辑回归）
平方损失函数（最小二乘法）
指数损失函数（Adaboost）
Hinge损失函数（SVM）
0-1损失
绝对值损失

2 log对数损失函数（逻辑回归）

Logistic回归的损失函数就是对数损失函数，在Logistic回归的推导中，它假设样本服从伯努利分布（伯努利分布亦称“零一分布”、“两点分布”。称随机变量X有伯努利分布, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)）分布，然后求得满足该分布的似然函数，接着用对数求极值。Logistic回归并没有求对数似然函数的最大值，而是把极大化当做一个思想，进而推导它的风险函数为最小化的负的似然函数。从损失函数的角度上，它就成为了log损失函数,其标准形式：

Logistic回归目标式子如下：

逻辑回归模型详见：https://blog.csdn.net/weixin_39910711/article/details/81607386

3 平方损失函数（最小二乘法, Ordinary Least Squares ）

最小二乘法是线性回归的一种方法，它将回归的问题转化为了凸优化的问题。最小二乘法的基本原则是：最优拟合曲线应该使得所有点到回归直线的距离和最小。通常用欧式距离进行距离的度量。当样本个数为n时，此时的损失函数变为：

Y-f(X)表示的是残差，整个式子表示的是残差的平方和，而我们的目的就是最小化这个目标函数值（注：该式子未加入正则项），也就是最小化残差的平方和。

而在实际应用中，通常会使用均方差（MSE）作为一项衡量指标，公式如下：

4 指数损失函数（Adaboost）

学过Adaboost算法的人都知道，它是前向分步加法算法的特例，是一个加和模型，损失函数就是指数函数。在Adaboost中，经过m此迭代之后，可以得到：

$f_m (x) = f_{m-1}(x) + \alpha_m G_m(x)$

Adaboost每次迭代时的目的是为了找到最小化下列式子时的参数 α和G：

$\arg \min_{\alpha, G} = \sum_{i=1}^{N} exp[-y_{i} (f_{m-1}(x_i) + \alpha G(x_{i}))]$

指数损失函数(exp-loss）的标准形式如下:

可以看出，Adaboost的目标式子就是指数损失，在给定n个样本的情况下，Adaboost的损失函数为：

5 Hinge损失函数（SVM）

Hinge loss用于最大间隔（maximum-margin）分类，其中最有代表性的就是支持向量机SVM。

Hinge函数的标准形式：

其中，t为目标值（-1或+1），y是分类器输出的预测值，并不直接是类标签。其含义为，当t和y的符号相同时（表示y预测正确）并且|y|≥1时，hinge loss为0；当t和y的符号相反时，hinge loss随着y的增大线性增大。

说法（1）在机器学习算法中，hinge损失函数和SVM是息息相关的。在线性支持向量机中，最优化问题可以等价于下列式子：

$\min_{w,b} \ \sum_{i}^{N} [1 - y_i(w\cdot x_i + b)]_{+} + \lambda||w||^2$

下面来对式子做个变形，令： $[1 - y_i(w\cdot x_i + b)]_{+} = \xi_{i}$

于是，原式就变成了： $\min_{w,b} \ \sum_{i}^{N} \xi_i + \lambda||w||^2$

式子就可以表示成：

$\min_{w,b} \frac{1}{C}\left ( \frac{1}{2}\ ||w||^2 $$ + C \sum_{i}^{N} \xi_i\right )$

可以看出，该式子与下式非常相似：
$\frac{1}{m} \sum_{i=1}^{m} l(w \cdot x_i + b, y_i) + ||w||^2$

其中就是hinge损失函数，后面相当于L2正则项。

说法（2）在支持向量机中，最初的SVM优化的函数如下：

　将约束项进行变形，则为：

　　则损失函数可以进一步写为：

因此，SVM的损失函数可以看做是L2正则化与Hinge loss之和。

SVM详见：https://blog.csdn.net/weixin_39910711/article/details/82356973

6 0-1损失函数

在分类问题中，可以使用函数的正负号来进行模式判断，函数值本身的大小并不是很重要，0-1损失函数比较的是预测值与真实值的符号是否相同，0-1损失的具体形式如下：

感知机就是用的这种损失函数。但是由于相等这个条件太过严格，因此我们可以放宽条件，即满足时认为相等。

7 绝对值损失函数

绝对损失函数的意义和平方损失函数差不多，只不过是取了绝对值而不是求平方，差距不会被平方放大，其形式为：

意念回复

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习中常见的损失函数

目录1 损失函数简介 2 log对数损失函数（逻辑回归） 3 平方损失函数（最小二乘法, Ordinary Least Squares ）4 指数损失函数（Adaboost）5 Hinge损失函数（SVM）6 0-1损失函数7 绝对值损失函数1 损失函数简介损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用...
复制链接

扫一扫

专栏目录