机器学习基础-损失函数，范数

最新推荐文章于 2024-06-27 11:30:47 发布

ckriser

最新推荐文章于 2024-06-27 11:30:47 发布

阅读量3k

点赞数 3

分类专栏：机器学习算法基础文章标签：机器学习损失函数 L1和L2正则化岭回归 LASSO回归

本文链接：https://blog.csdn.net/u010700066/article/details/81566614

版权

算法基础同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

机器学习

8 篇文章 0 订阅

订阅专栏

一、统计学中常见的损失函数有以下几种：

1.0-1损失函数（0-1 loss function）

L (Y, f (x)) = {1, Y \neq f (X) 0, Y = f (X)

$L(Y,f(x)) = \begin{cases} 1, Y \neq f(X) \\0, Y = f(X) \end{cases}$
2.平方损失函数（quadratic loss function）

L (Y, f (x)) = (Y - f (X)) 2

$L(Y,f(x)) = (Y-f(X))^2$
3,绝对值损失函数（absolute loss function）

L (Y, f (x)) = | Y - f (X) |

$L(Y,f(x)) = |Y-f(X)|$
4.对数损失函数（logarithmic loss function）或对数似然损失函数（log-likelihood loss function）

L (Y, P (Y | X)) = - log P (Y | X)

$L(Y,P(Y|X)) = -\log P(Y|X)$
5.交叉熵损失函数：交叉熵刻画的是实际输出（概率）与期望输出（概率）的距离，也就是交叉熵的值越小，两个概率分布就越接近。假设概率分布p为期望输出，概率分布q为实际输出，H(p,q)为交叉熵，则：
参考：理解交叉熵作为损失函数在神经网络中的作用

H (p, q) = - \sum x p (x) l o g q (x)

$H(p,q) = - \sum_x p(x)logq(x)$

损失函数值越小也好，由于输入输出（X,Y）是随机变量，遵从联合分布P(X,Y)所以损失函数的期望为：

R e x p (f) = E P [L (Y, f (X))] = \int x, y L (y, f (x)) P (x, y) d x d y

$R_{exp}(f) = E_P[L(Y,f(X))] = \int _{x,y} L(y,f(x))P(x,y)dxdy$
这个就是期望损失。

上面的加上结构挂风险就和总体写成如下式子：

R s r m (f) = 1 N \sum i = 1 N L (y i, f (x i)) + λ J (f)

$R_{srm}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i , f(x_i)) + \lambda J(f)$
当上面的式子最小的时候就是最优的函数参数。就是：

R s r m (f) m i n = 1 N \sum i = 1 N L (y i, f (x i)) + λ J (f)

$R_{srm}(f)_{min} = \frac{1}{N} \sum_{i=1}^N L(y_i , f(x_i)) + \lambda J(f)$
这个就是经验风险和结构风险最优化的目标函数。

二、正则化（regularization）

正则化是结构风险最小化测量的实现，是在经验风险上加上一个正则化项，正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值越大。常见的正则化可以是模型参数向量的范数。

一般正则化具有如下形式：

m i n f \in F = 1 N \sum i = 1 N L (y i, f (x i)) + λ J (f)

$min_{f∈F} = \frac{1}{N} \sum_{i=1}^N L(y_i , f(x_i)) + \lambda J(f)$
其中

λ≥0 λ ≥ 0 $\lambda \geq 0$ 调整经验损失和结构损失关系的系数。

正则化可以取不同的形式。例如回归问题，损失函数是平方损失，正则化可以是参数向量的 $L_2$ 范数：

m i n f \in F = 1 N \sum i = 1 N L (y i, f (x i)) + λ 2 | | w | | 2

$min_{f∈F} = \frac{1}{N} \sum_{i=1}^N L(y_i , f(x_i)) + \frac{\lambda}{2} ||w||^2$ ,其中

||w||2 | | w | | 2 $||w||^2$ 表示参数w的

L2 L 2 $L_2$ 范数。
也可以是

L1 L 1 $L_1$ 范数，如下：

m i n f \in F = 1 N \sum i = 1 N L (y i, f (x i)) + λ | | w | | 1

$min_{f∈F} = \frac{1}{N} \sum_{i=1}^N L(y_i , f(x_i)) + \lambda ||w||_1$

三、岭回归（ridge regression）和 LASSO（Least Absolute Shrinkage and Selection Operator）

其中，对简单线性回归模型，给定数据集 $D=\{(x_1,y_1),(x_3,y_2)...,(x_m,y_m)\}$ ，使用平方损失函数（quadratic loss function）引入了 $L_2$ 正则化称为岭回归：

L (Y, f (x)) = (Y - f (X)) 2 + λ | | w | | 22 = m i n w \sum i = 1 m (y i - w T x i) 2 + λ | | w | | 22 (1)

$L(Y,f(x)) = (Y-f(X))^2 + \lambda ||w||_2^2 \\ = min_{w}\sum _{i=1}^m (y_i - w^Tx_i)^2 + \lambda ||w||_2^2 \tag{1}$
对引入了

L1 L 1 $L_1$ 正则化称为 LASSO回归：

L (Y, f (x)) = (Y - f (X)) 2 + λ | | w | | 1 = m i n w \sum i = 1 m (y i - w T x i) 2 + λ | | w | | 1 (2)

$L(Y,f(x)) = (Y-f(X))^2 + \lambda ||w||_1 \\ = min_{w}\sum _{i=1}^m (y_i - w^Tx_i)^2 + \lambda ||w||_1 \tag{2}$

$~~~~~~~~~~~~~$ 这里就会有一个疑问， $L_1和L_2$ 都可以做正则化项去结构化最小，那这两个在什么情况下选取呢?怎么选取是合适的呢？这个问题首先要看什么是范数。

四、范数（norm）

数学上，范数是一个向量空间或矩阵上所有向量的长度和大小的求和。简单一点，我们可以说范数越大，矩阵或者向量就越大。范数有许多种形式和名字，包括最常见的：欧几里得距离（Euclideandistance），最小均方误差（Mean-squared Error）等等。
范数参考博客：L1正则和L2正则的比较分析详解 ——-是真的详尽，本节就是引用这篇博文。
大多数时间，你会在等式中看见范数像下面那样：
如一个向量 $\vec a = {[3,-2,1]^T}$ ，其欧几里得范数 $L_2$ 范数为： $||\vec a||_2 = \sqrt{3^2+(-2)^2+1^2} = \sqrt{14} = 3.742$
即向量a的模的大小。上面的例子展示了怎样计算欧几里得范数，或者叫做l2-norm.

X的Lp-norm的规范定义如下： $||\vec x||_p = \sqrt[p]{\sum_i |x_i|^p}$
有趣的是，lp-norm看起来非常相似，但是他们的数学特性非常不同，结果应用场景也不一样。因此，这里详细介绍了几种范式。

L1-norm：

这个范数在范数家族中相当常见，它有很多名字和许多种形式，它的昵称是曼哈顿范数（Manhattannorm）。两个向量或矩阵的l1-norm为：

| | x | | 1 = \sum i | x i |

$||x||_1 = \sum_i|x_i|$

n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离： $d_{12}=\sum_{k=1}^n|x_{1k}-x_{2k}|$

在计算机视觉科学家眼中，它叫做绝对偏差和（Sum of AbsoluteDifference，SAD）。

S A D (x 1, x 2) = | | x 1 - x 2 | | 1 = \sum | x 1 - x 2 |

$SAD(x_1,x_2) = ||x_1 - x_2||_1 = \sum |x_1 -x_2|$

在一般情况下，它可以用于一个单元的偏差计算：它叫做平均绝对误差（Mean-Absolute Error，MAE）.

M A E (x 1, x 2) = 1 n | | x 1 - x 2 | | 1 = 1 n \sum | x 1 i - x 2 i |

$MAE(x_1, x_2) = \frac{1}{n} ||x_1-x_2||_1 = \frac{1}{n} \sum|x_{1i} -x_{2i}|$

L2-norm:

所有范数中最流行的是l2-norm。总体上，它用于工程和科学领域的方方面面。基本定义如下，l2-norm:

| | x | | 2 = \sum i x 2 i - - - - - \sqrt

$||x||_2 =\sqrt{ \sum_i x_i^2}$
它的平方形式，在计算机视觉领域为平方差的和（Sumof Squared Difference，SSD）：

S S D (x 1, x 2) = | | x 1 - x 2 | | 22 = \sum i (x 1 i - x 2 i) 2

$SSD(x_1,x_2) = ||x_1-x_2||_2^2 = \sum_i (x_{1i} -x_{2i})^2$
它最出名的应用是在信号处理领域，为均方误差（Mean-SquaredError，MSE），它被用来计算两个信号的相似度，质量（quality）和关系。MSE为：

M S E (x 1, x 2) = 1 n | | x 1 - x 2 | | 22 = 1 n \sum (x 1 i - x 2 i) 22

$MSE(x_1, x_2) = \frac{1}{n} ||x_1-x_2||_2^2 = \frac{1}{n} \sum(x_{1i} -x_{2i})_2^2$

五、L1和L2正则化的关系

L1和L2正则化比较经典的两张图之间的关系：

通过两个图来查看：
误差参数对L1和L2的影响：
这里写图片描述

正则化约束下最佳参数的求解：
这里写图片描述

正则化参数的模型：机器学习中的正则化技术L0,L1与L2范数 —详细清晰

ckriser

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础-损失函数，范数

一、统计学中常见的损失函数有以下几种：1.0-1损失函数（0-1 loss function） L(Y,f(x))={1,Y≠f(X)0,Y=f(X)L(Y,f(x))={1,Y≠f(X)0,Y=f(X) L(Y,f(x)) = \begin{cases} 1, Y \neq f(X)\\0, Y = f(X)\end{cases} 2.平方损失函数（quadratic loss...
复制链接

扫一扫