1、目录
2、前言
最近被问到一些机器学习模型的损失函数,虽然经常使用,竟然记得不怎么准确,今天来梳理复习一下。后续继续补充。
3、模型
1)感知机
感知机就是求出一个超平面,划分正负样本集。损失函数就是所有误分点到超平面的总距离:
−
1
∣
∣
w
∣
∣
∑
x
i
∈
M
y
i
(
w
⋅
x
i
+
b
)
-\dfrac{1}{||w||}\sum\limits_{x_i \in M}y_i(w \cdot x_i+b)
−∣∣w∣∣1xi∈M∑yi(w⋅xi+b)
2)SVM
SVM俗称支持向量机,其损失函数由两部分组成:“经验损失函数”和“正则化项”。
min
w
,
b
∑
i
=
1
N
[
1
−
y
i
(
w
⋅
x
i
+
b
)
]
+
+
λ
∥
w
∥
2
\min\limits_{w,b} \sum\limits_{i=1}^N[1-y_i(w \cdot x_i+b)]_++\lambda\Vert w \Vert^2
w,bmini=1∑N[1−yi(w⋅xi+b)]++λ∥w∥2
其中,经验损失函数也可以称为合页损失函数(hinge loss function),下标“+”表示取正值的函数。
3)LR
LR俗称逻辑回归,其损失函数就是对数似然函数。假设
P
(
Y
=
1
∣
x
)
=
π
(
x
)
P(Y=1|x)=\pi(x)
P(Y=1∣x)=π(x),
P
(
Y
=
0
∣
x
)
=
1
−
π
(
x
)
P(Y=0|x)=1-\pi(x)
P(Y=0∣x)=1−π(x),那么似然函数就是
∏
i
=
1
N
[
π
(
x
i
)
]
y
i
[
1
−
π
(
x
i
)
]
1
−
y
i
\prod\limits_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
i=1∏N[π(xi)]yi[1−π(xi)]1−yi,因此损失函数就是:
L
(
w
)
=
∑
i
=
1
N
[
y
i
l
o
g
π
(
x
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
π
(
x
i
)
)
]
L(w)=\sum\limits_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]
L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]
=
∑
i
=
1
N
[
y
i
(
w
⋅
x
i
)
−
l
o
g
(
1
+
e
x
p
(
w
⋅
x
i
)
]
=\sum\limits_{i=1}^N[y_i(w \cdot x_i)-log(1+exp(w \cdot x_i)]
=i=1∑N[yi(w⋅xi)−log(1+exp(w⋅xi)]
参考:
[1]解析损失函数之categorical_crossentropy loss与 Hinge loss
[2]深度学习-Loss函数