机器学习基础-损失函数,范数

一、统计学中常见的损失函数有以下几种:

1.0-1损失函数(0-1 loss function)

L(Y,f(x))={1,Yf(X)0,Y=f(X) L ( Y , f ( x ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X )

2.平方损失函数(quadratic loss function)
L(Y,f(x))=(Yf(X))2 L ( Y , f ( x ) ) = ( Y − f ( X ) ) 2

3,绝对值损失函数(absolute loss function)
L(Y,f(x))=|Yf(X)| L ( Y , f ( x ) ) = | Y − f ( X ) |

4.对数损失函数(logarithmic loss function)或对数似然损失函数(log-likelihood loss function)
L(Y,P(Y|X))=logP(Y|X) L ( Y , P ( Y | X ) ) = − log ⁡ P ( Y | X )

5.交叉熵损失函数:交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近。假设概率分布p为期望输出,概率分布q为实际输出,H(p,q)为交叉熵,则:
参考: 理解交叉熵作为损失函数在神经网络中的作用
H(p,q)=xp(x)logq(x) H ( p , q ) = − ∑ x p ( x ) l o g q ( x )

损失函数值越小也好,由于输入输出(X,Y)是随机变量,遵从联合分布P(X,Y)所以损失函数的期望为:

Rexp(f)=EP[L(Y,f(X))]=x,yL(y,f(x))P(x,y)dxdy R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ x , y L ( y , f ( x ) ) P ( x , y ) d x d y

这个就是期望损失。

上面的加上结构挂风险就和总体写成如下式子:

Rsrm(f)=1Ni=1NL(yi,f(xi))+λJ(f) R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f )

当上面的式子最小的时候就是最优的函数参数。就是:
Rsrm(f)min=1Ni=1NL(yi,f(xi))+λJ(f) R s r m ( f ) m i n = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f )

这个就是经验风险和结构风险最优化的目标函数。

二、正则化(regularization)

正则化是结构风险最小化测量的实现,是在经验风险上加上一个正则化项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。常见的正则化可以是模型参数向量的范数。

一般正则化具有如下形式:

minfF=1Ni=1NL(yi,f(xi))+λJ(f) m i n f ∈ F = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f )

其中 λ0 λ ≥ 0 调整经验损失和结构损失关系的系数。

正则化可以取不同的形式。例如回归问题,损失函数是平方损失,正则化可以是参数向量的 L2 L 2 范数:

minfF=1Ni=1NL(yi,f(xi))+λ2||w||2 m i n f ∈ F = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ 2 | | w | | 2
,其中 ||w||2 | | w | | 2 表示参数w的 L2 L 2 范数。
也可以是 L1 L 1 范数,如下:
minfF=1Ni=1NL(yi,f(xi))+λ||w||1 m i n f ∈ F = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ | | w | | 1

三、 岭回归(ridge regression)和 LASSO(Least Absolute Shrinkage and Selection Operator)

其中,对简单线性回归模型,给定数据集 D={(x1,y1),(x3,y2)...,(xm,ym)} D = { ( x 1 , y 1 ) , ( x 3 , y 2 ) . . . , ( x m , y m ) } ,使用平方损失函数(quadratic loss function)引入了 L2 L 2 正则化称为岭回归

L(Y,f(x))=(Yf(X))2+λ||w||22=minwi=1m(yiwTxi)2+λ||w||22(1) (1) L ( Y , f ( x ) ) = ( Y − f ( X ) ) 2 + λ | | w | | 2 2 = m i n w ∑ i = 1 m ( y i − w T x i ) 2 + λ | | w | | 2 2

对引入了 L1 L 1 正则化称为 LASSO回归
L(Y,f(x))=(Yf(X))2+λ||w||1=minwi=1m(yiwTxi)2+λ||w||1(2) (2) L ( Y , f ( x ) ) = ( Y − f ( X ) ) 2 + λ | | w | | 1 = m i n w ∑ i = 1 m ( y i − w T x i ) 2 + λ | | w | | 1

                                        这里就会有一个疑问, L1L2 L 1 和 L 2 都可以做正则化项去结构化最小,那这两个在什么情况下选取呢?怎么选取是合适的呢?这个问题首先要看什么是范数。

四、范数(norm)

数学上,范数是一个向量空间或矩阵上所有向量的长度和大小的求和。简单一点,我们可以说范数越大,矩阵或者向量就越大。范数有许多种形式和名字,包括最常见的:欧几里得距离(Euclideandistance),最小均方误差(Mean-squared Error)等等。
范数参考博客:L1正则和L2正则的比较分析详解 ——-是真的详尽,本节就是引用这篇博文。
大多数时间,你会在等式中看见范数像下面那样:
如一个向量 a⃗ =[3,2,1]T a → = [ 3 , − 2 , 1 ] T ,其欧几里得范数 L2 L 2 范数为: ||a⃗ ||2=32+(2)2+12=14=3.742 | | a → | | 2 = 3 2 + ( − 2 ) 2 + 1 2 = 14 = 3.742
即向量a的模的大小。上面的例子展示了怎样计算欧几里得范数,或者叫做l2-norm.

X的Lp-norm的规范定义如下 ||x⃗ ||p=i|xi|pp | | x → | | p = ∑ i | x i | p p
有趣的是,lp-norm看起来非常相似,但是他们的数学特性非常不同,结果应用场景也不一样。因此,这里详细介绍了几种范式。

L1-norm:

这个范数在范数家族中相当常见,它有很多名字和许多种形式,它的昵称是曼哈顿范数(Manhattannorm)。两个向量或矩阵的l1-norm为:

||x||1=i|xi| | | x | | 1 = ∑ i | x i |

n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离: d12=nk=1|x1kx2k| d 12 = ∑ k = 1 n | x 1 k − x 2 k |

在计算机视觉科学家眼中,它叫做绝对偏差和(Sum of AbsoluteDifference,SAD)。

SAD(x1,x2)=||x1x2||1=|x1x2| S A D ( x 1 , x 2 ) = | | x 1 − x 2 | | 1 = ∑ | x 1 − x 2 |

在一般情况下,它可以用于一个单元的偏差计算:它叫做平均绝对误差(Mean-Absolute Error,MAE).

MAE(x1,x2)=1n||x1x2||1=1n|x1ix2i| M A E ( x 1 , x 2 ) = 1 n | | x 1 − x 2 | | 1 = 1 n ∑ | x 1 i − x 2 i |

L2-norm:

所有范数中最流行的是l2-norm。总体上,它用于工程和科学领域的方方面面。基本定义如下,l2-norm:

||x||2=ix2i | | x | | 2 = ∑ i x i 2

它的平方形式,在计算机视觉领域为平方差的和(Sumof Squared Difference,SSD):
SSD(x1,x2)=||x1x2||22=i(x1ix2i)2 S S D ( x 1 , x 2 ) = | | x 1 − x 2 | | 2 2 = ∑ i ( x 1 i − x 2 i ) 2

它最出名的应用是在信号处理领域,为均方误差(Mean-SquaredError,MSE),它被用来计算两个信号的相似度,质量(quality)和关系。MSE为:
MSE(x1,x2)=1n||x1x2||22=1n(x1ix2i)22 M S E ( x 1 , x 2 ) = 1 n | | x 1 − x 2 | | 2 2 = 1 n ∑ ( x 1 i − x 2 i ) 2 2

五、L1和L2正则化的关系

L1和L2正则化比较经典的两张图之间的关系:

通过两个图来查看:
误差参数对L1和L2的影响:
这里写图片描述

正则化约束下最佳参数的求解:
这里写图片描述

正则化参数的模型:机器学习中的正则化技术L0,L1与L2范数 —详细清晰

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值