损失函数
模型误差 = 偏差(Bias)+ 方差(Variance)+ 数据本身的误差。其中数据本身的误差,可能由于记录过程中的一些不确定性因素等导致,这个我们无法避免,能做的只有不断优化模型参数来权衡偏差和方差,使得模型误差尽可能降到最低。
loss function
LogLoss 对数损失函数(binary cross entropy)
hinge loss(合页损失函数,SVM)
- 最小化目标函数
∑ i = 1 m max ( 0 , 1 − y i ( W T X i + b ) ) + λ ∥ W ∥ \sum_{i=1}^{m}\max(0,1-y_i(W^TX_i+b))+\lambda \left\| W \right \| ∑i=1mmax(0,1−yi(WTXi+b))+λ∥W∥ - 等同于
min w , b ∑ i = 1 m [ 1 − y i ( W T X i + b ) ] + + λ ∥ W ∥ \min_{w,b}\sum_{i=1}^m[1-y_i(W^TX_i+b)]_++\lambda\left\|W\right\| minw,b∑i=1m[1−yi(WTXi+b)]++λ∥W∥
当样本点(x_i, y_i)被正确分类且函数间隔y_i(wTx_i+b)大于1时,其损失为0,否则损失为1-y_i(w^Tx_i+b)。所以在使用hinge loss function时,我们的最优化问题为最小化损失函数
exp-loss ,AdaBoost
Adaboost的损失函数为指数损失函数。在Adaboost算法学习的过程中,经过m轮迭代之后,可以得到f_m(x):
f
m
(
x
)
=
f
m
−
1
(
x
)
+
a
m
G
m
(
x
)
f_m(x)=f_{m-1}(x)+a_mG_m(x)
fm(x)=fm−1(x)+amGm(x)
给定n个样本的情况下,损失函数为
L
(
y
,
f
(
x
)
)
=
exp
−
y
f
(
x
)
L(y,f(x))=\exp{-yf(x)}
L(y,f(x))=exp−yf(x)
L
(
y
,
f
(
x
)
=
1
n
∑
i
=
1
n
exp
−
y
i
f
(
x
i
)
L(y,f(x)=\frac1n\sum_{i=1}^n\exp{-y_if(x_i)}
L(y,f(x)=n1i=1∑nexp−yif(xi)
cross-entropy loss(交叉熵损失函数,softmax)
交叉熵
H
(
p
,
q
)
=
−
∑
y
p
(
y
)
log
q
(
y
)
H(p,q)=-\sum_{y}p(y)\log{q(y)}
H(p,q)=−∑yp(y)logq(y)
交叉熵损失函数通常使用在softmax上,而softmax通常使用在神经网络的末端,使其预测结果以概率的形式输出,损失函数用于对Loss的改进。Softmax函数为:
softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,而且这些值累计和为1
quadratic loss(平方误差损失函数,线性回归)
L
(
Y
,
f
(
X
)
)
=
(
f
(
X
)
−
Y
)
2
]
L(Y,\ f(X))=(f(X)-Y)^2]
L(Y, f(X))=(f(X)−Y)2]
l
(
Y
,
f
(
X
)
)
=
1
2
m
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
l(Y,f(X))=\frac{1}{2m}\sum_{i=1}^m(f(x_i)-y_i)^2
l(Y,f(X))=2m1∑i=1m(f(xi)−yi)2
加入L1正则化为Lasso回归:
L
(
Y
,
f
(
X
)
)
=
1
2
m
∑
i
=
1
m
[
f
(
x
i
)
−
y
i
]
2
+
λ
∑
j
=
1
n
∣
w
j
∣
L(Y,f(X))=\frac{1}{2m}\sum_{i=1}^{m}[f(x_i)-y_i]^2\ +\ \lambda\sum_{j=1}^n|w_j|
L(Y,f(X))=2m1∑i=1m[f(xi)−yi]2 + λ∑j=1n∣wj∣
加入L2正则化则为岭回归:
L
(
Y
,
f
(
X
)
)
=
1
2
m
∑
i
=
1
m
[
f
(
x
i
)
−
y
i
]
2
+
λ
∑
j
=
1
n
w
j
2
L(Y,f(X))=\frac{1}{2m}\sum_{i=1}^{m}[f(x_i)-y_i]^2\ +\ \lambda\sum_{j=1}^nw_j^2
L(Y,f(X))=2m1∑i=1m[f(xi)−yi]2 + λ∑j=1nwj2
Lasso回归和岭回归区别
Lasso趋向于使一部分W值变为0,可以作为特征选择使用,倾向于产生稀疏解
岭回归会将一些特征稀疏降到较小,但不会降为0
不是处处可导,不能用基于梯度的方法优化损失函数
收敛速度比岭回归块,产生更大的偏差
岭回归有解析解
absolution loss(绝对值损失函数)
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=∣Y−f(X)∣
0-1损失函数
L ( y , f ( x ) ) = { 0 i f y = f ( x ) 1 i f y ≠ f ( x ) L(y,f(x)) = \left\{\begin{matrix} 0 \ \ \ if\ \ y=f(x)& \\ & \\ 1 \ \ \ if\ \ y\neq f(x)& \end{matrix}\right. L(y,f(x))=⎩⎨⎧0 if y=f(x)1 if y̸=f(x)