损失函数

损失函数

模型误差 = 偏差(Bias)+ 方差(Variance)+ 数据本身的误差。其中数据本身的误差,可能由于记录过程中的一些不确定性因素等导致,这个我们无法避免,能做的只有不断优化模型参数来权衡偏差和方差,使得模型误差尽可能降到最低。

loss function

LogLoss 对数损失函数(binary cross entropy)
hinge loss(合页损失函数,SVM)
  • 最小化目标函数
    ∑ i = 1 m max ⁡ ( 0 , 1 − y i ( W T X i + b ) ) + λ ∥ W ∥ \sum_{i=1}^{m}\max(0,1-y_i(W^TX_i+b))+\lambda \left\| W \right \| i=1mmax(0,1yi(WTXi+b))+λW
  • 等同于
    min ⁡ w , b ∑ i = 1 m [ 1 − y i ( W T X i + b ) ] + + λ ∥ W ∥ \min_{w,b}\sum_{i=1}^m[1-y_i(W^TX_i+b)]_++\lambda\left\|W\right\| minw,bi=1m[1yi(WTXi+b)]++λW

当样本点(x_i, y_i)被正确分类且函数间隔y_i(wTx_i+b)大于1时,其损失为0,否则损失为1-y_i(w^Tx_i+b)。所以在使用hinge loss function时,我们的最优化问题为最小化损失函数

exp-loss ,AdaBoost

Adaboost的损失函数为指数损失函数。在Adaboost算法学习的过程中,经过m轮迭代之后,可以得到f_m(x):
f m ( x ) = f m − 1 ( x ) + a m G m ( x ) f_m(x)=f_{m-1}(x)+a_mG_m(x) fm(x)=fm1(x)+amGm(x)
给定n个样本的情况下,损失函数为
L ( y , f ( x ) ) = exp ⁡ − y f ( x ) L(y,f(x))=\exp{-yf(x)} L(y,f(x))=expyf(x) L ( y , f ( x ) = 1 n ∑ i = 1 n exp ⁡ − y i f ( x i ) L(y,f(x)=\frac1n\sum_{i=1}^n\exp{-y_if(x_i)} L(y,f(x)=n1i=1nexpyif(xi)

cross-entropy loss(交叉熵损失函数,softmax)

交叉熵
H ( p , q ) = − ∑ y p ( y ) log ⁡ q ( y ) H(p,q)=-\sum_{y}p(y)\log{q(y)} H(p,q)=yp(y)logq(y)
交叉熵损失函数通常使用在softmax上,而softmax通常使用在神经网络的末端,使其预测结果以概率的形式输出,损失函数用于对Loss的改进。Softmax函数为:
softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,而且这些值累计和为1

quadratic loss(平方误差损失函数,线性回归)

L ( Y ,   f ( X ) ) = ( f ( X ) − Y ) 2 ] L(Y,\ f(X))=(f(X)-Y)^2] L(Y, f(X))=(f(X)Y)2]
l ( Y , f ( X ) ) = 1 2 m ∑ i = 1 m ( f ( x i ) − y i ) 2 l(Y,f(X))=\frac{1}{2m}\sum_{i=1}^m(f(x_i)-y_i)^2 l(Y,f(X))=2m1i=1m(f(xi)yi)2

加入L1正则化为Lasso回归:
L ( Y , f ( X ) ) = 1 2 m ∑ i = 1 m [ f ( x i ) − y i ] 2   +   λ ∑ j = 1 n ∣ w j ∣ L(Y,f(X))=\frac{1}{2m}\sum_{i=1}^{m}[f(x_i)-y_i]^2\ +\ \lambda\sum_{j=1}^n|w_j| L(Y,f(X))=2m1i=1m[f(xi)yi]2 + λj=1nwj
加入L2正则化则为岭回归:
L ( Y , f ( X ) ) = 1 2 m ∑ i = 1 m [ f ( x i ) − y i ] 2   +   λ ∑ j = 1 n w j 2 L(Y,f(X))=\frac{1}{2m}\sum_{i=1}^{m}[f(x_i)-y_i]^2\ +\ \lambda\sum_{j=1}^nw_j^2 L(Y,f(X))=2m1i=1m[f(xi)yi]2 + λj=1nwj2
Lasso回归和岭回归区别
Lasso趋向于使一部分W值变为0,可以作为特征选择使用,倾向于产生稀疏解
岭回归会将一些特征稀疏降到较小,但不会降为0
不是处处可导,不能用基于梯度的方法优化损失函数
收敛速度比岭回归块,产生更大的偏差
岭回归有解析解

absolution loss(绝对值损失函数)

L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)

0-1损失函数

L ( y , f ( x ) ) = { 0     i f    y = f ( x ) 1     i f    y ≠ f ( x ) L(y,f(x)) = \left\{\begin{matrix} 0 \ \ \ if\ \ y=f(x)& \\ & \\ 1 \ \ \ if\ \ y\neq f(x)& \end{matrix}\right. L(y,f(x))=0   if  y=f(x)1   if  y̸=f(x)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值