机器学习的损失函数

最新推荐文章于 2024-07-11 10:30:00 发布

Young_Gy

最新推荐文章于 2024-07-11 10:30:00 发布

阅读量2.9k

点赞数

文章标签：机器学习损失函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/young_gy/article/details/57953951

版权

机器学习三方面
损失函数
对比与总结

机器学习三方面

机器学习问题，大致包含这是哪个方面：

模型：建立什么样的模型
目标：怎么定义最大化或最小化的目标函数
算法：怎么求解最大或最小化目标函数的优化问题

举个例子：

逻辑回归。模型是 $y=\theta(wx)$ ；通过最大似然（MLE）构造目标函数；通过SGD求解目标函数。
线性回归。模型是 $y=wx$ ；通过最小二乘构建目标函数；通过求解最小二乘得到优化问题的闭解。

机器学习的目的，就是在确定好模型（假设集）的前提下，构建目标函数构建优化问题，然后通过优化算法求解模型的最优参数，通常可以表达成如下式子：

θ = arg min θ 1 N \sum i = 1 N L (y i, f (x i, θ)) + λ ϕ (θ)

$\theta = \arg\min_{\theta} \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i, \theta)) + \lambda \phi(\theta)$

式子左边表示经验风险函数，损失函数是其核心部分；式子右边是正则项。式子整体是结构风险函数，其由经验风险函数和正则项组成。

损失函数

交叉熵（逻辑回归）

逻辑回归的经验风险函数如下：

E i n = 1 N \sum i = 1 N log (1 + exp (- y n w T x n))

$E_{in} = \frac{1}{N} \sum_{i=1}^N \log(1+\exp(-y_n w^T x_n))$

其损失函数叫做交叉熵：

L (y n, x n, w) = log (1 + exp (- y n w T x n)

$L(y_n, x_n, w) = \log(1+\exp(-y_n w^T x_n)$

其函数图像如下（横坐标轴代表 $ys$ ，即 $yw^Tx$ ）：

这里写图片描述

平方损失函数（最小二乘）

最小二乘的经验风险函数如下：

E i n = 1 N \sum i = 1 N (y n - w T x n) 2

$E_{in} = \frac{1}{N} \sum_{i=1}^N (y_n-w^T x_n)^2$

其损失函数为平方损失函数：

L (y n, x n, w) = (y n - w T x n) 2

$L(y_n, x_n, w) =(y_n-w^T x_n)^2$

其函数图像如下（横坐标轴代表 $ys$ ，即 $yw^Tx$ ）：

这里写图片描述

Hinge损失函数（SVM）

软间隔的SVM有如下表示：

s . t . min b, w, ξ 1 2 w T w + C \sum n = 1 N ξ n y n (w T x n + b) \geq 1 - ξ n, ξ n \geq 0

$\begin{split} &\min _{b,w,\xi}\frac{1}{2} w^Tw + C\sum_{n=1}^N \xi_n \\ s.t. &y_n(w^Tx_n +b) \ge 1-\xi_n,\xi_n \ge 0 \end{split}$

将约束条件放到最小化的式子中得到软间隔SVM的结构风险函数：

min b, w, ξ 1 2 w T w + C \sum n = 1 N max (0, 1 - y n (w T x n + b))

$\min _{b,w,\xi}\frac{1}{2} w^Tw + C\sum_{n=1}^N \max(0,1-y_n(w^Tx_n +b))$

软间隔SVM的损失函数为Hinge损失函数：

L (y n, x n, w, b) = max (0, 1 - y n (w T x n + b))

$L(y_n, x_n, w,b) = \max(0,1-y_n(w^Tx_n +b))$

其图像为：

这里写图片描述

指数损失函数（AdaBoost）

在AdaBoost中，数据权重的更新方式为：

u (t + 1) n u (t + 1) n u (T + 1) n \sum n = 1 N u (T + 1) n = u (t) n ◊ - y n g t (x n) = u (t) n exp (- y n α t g t (x n)) = 1 N exp (- y n \sum t = 1 T α t g t (x n)) = 1 N \sum n = 1 N exp (- y n \sum t = 1 T α t g t (x n))

$\begin{split} u_n^{(t+1)} &= u_n^{(t)} \Diamond^{-y_n g_t(x_n)} \\ u_n^{(t+1)} &= u_n^{(t)} \exp(-y_n \alpha_t g_t(x_n)) \\ u_n^{(T+1)} &= \frac{1}{N} \exp(-y_n \sum_{t=1}^T\alpha_t g_t(x_n)) \\ \sum_{n=1}^N u_n^{(T+1)} &= \frac{1}{N} \sum_{n=1}^N \exp(-y_n \sum_{t=1}^T\alpha_t g_t(x_n)) \end{split}$

AdaBoost的训练的目标就是减少 $\sum_{n=1}^N u_n^{(T+1)}$ ，因此其风险函数为：

1 N \sum n = 1 N exp (- y n \sum t = 1 T α t g t (x n))

$\frac{1}{N} \sum_{n=1}^N \exp(-y_n \sum_{t=1}^T\alpha_t g_t(x_n))$

其损失函数为：

L (y n, x n, α, g) = exp (- y n \sum t = 1 T α t g t (x n))

$L(y_n, x_n, \alpha, g) =\exp(-y_n \sum_{t=1}^T\alpha_t g_t(x_n))$

其损失函数的图像为：

这里写图片描述

对比与总结

这里写图片描述

01 loss是最本质的分类损失函数，但是这个函数不易求导，在模型的训练不常用，通常用于模型的评价。
squared loss方便求导，缺点是当分类正确的时候随着 $ys$ 的增大损失函数也增大。
cross entropy方便求导，逼近01 loss。
Hinge Loss当 $ys \ge 1$ ，损失为0，对应分类正确的情况；当 $ys <1$ 时，损失与 $ys$ 成正比，对应分类不正确的情况（软间隔中的松弛变量）。
exponential loss方便求导，逼近01 loss。
squared loss， cross entropy，exponential loss以及hinge loss的左侧都是凸函数，方便求导有利于优化问题的求解；同时这些loss函数都是01 error的上界，可以通过减少loss来实现01问题的求解，即求解分类问题。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Young_Gy CSDN认证博客专家 CSDN认证企业博客

码龄10年

151: 原创

12万+: 周排名

95万+: 总排名

71万+: 访问

: 等级

7254: 积分

518: 粉丝

363: 获赞

117: 评论

1515: 收藏

私信

关注

热门文章

最新评论

扩展卡尔曼滤波EKF与多传感器融合
qq_35210952: 这里题主应该再加个解释 1、这里用ekf的原因是毫米波的状态转移方程是非线性的。 2、激光雷达状态转移是线性的，所以激光雷达用kf更新 3、两类的预测为什么是相同的，因为都是在同一个状态空间下预测的,,所以两类就统一在一起，没必要单独算一遍，增加计算量（我猜的）。再看对当前状态的修正，用的就有区别了，因为当前状态获取毫米波雷达的数据不是xyz
扩展卡尔曼滤波EKF与多传感器融合
qq_35210952: 如果是radar的用KF修正，是LIDAR用EKF修正，这是咋设计的呢？下面的图给出的是EKF的效果，都混在一起咋看的效果呢
局部放电的特征选择
煎饼侠797: 跪求实验数据集227703401@qq.com
局部放电的特征选择
我是个可爱小白菜: 求数据集
局部放电的特征选择
Selling_dusk: 跪求试验数据1255906008@qq.com

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。