scikit-learn 官方文档翻译学习
1.5.7 数学公式
来源:https://scikit-learn.org/stable/modules/sgd.html#mathematical-formulation
给定一组训练实例
(
x
1
,
y
1
)
,
⋅
⋅
⋅
,
(
x
n
,
y
n
)
,
(x_1,y_1),\cdot\cdot\cdot,(x_n,y_n),
(x1,y1),⋅⋅⋅,(xn,yn),其中
x
i
∈
R
m
x_i \in R^m
xi∈Rm,和
y
i
∈
{
−
1
,
1
}
y_i \in \{-1,1\}
yi∈{−1,1},需要学习目标函数
f
(
x
)
=
w
T
x
+
b
f(x)=w^Tx+b
f(x)=wTx+b。通过最小化训练误差来学得最佳参数
w
,
b
w,b
w,b:
E
(
w
,
b
)
=
1
n
∑
i
=
1
n
L
(
y
i
,
f
(
x
i
)
)
+
α
R
(
w
)
E(w,b)=\frac{1}{n}\sum_{i=1}^{n}L(y_i,f(x_i))+\alpha R(w)
E(w,b)=n1i=1∑nL(yi,f(xi))+αR(w)其中
L
L
L是经验损失函数,
R
R
R是正则化项(惩罚项)。
通常
L
L
L可选的形式包括:
- 合页函数(Hinge):支持向量机(软间隔)
- 对数函数(log):逻辑回归
- 最小平方差(Least-Suqares):岭回归
- Epsilon敏感:(软间隔)支持向量回归
以上所有这些损失函数都可以看做是 0 − 1 0-1 0−1损失函数的上界限,如下图所示:
正则化项 R R R的通常选择以下三种:
L2正则化: R ( w ) = 1 2 ∑ i = 1 n w i 2 R(w)=\frac{1}{2}\sum_{i=1}^{n}w_i^2 R(w)=21i=1∑nwi2L1正则化(产生稀疏解): R ( w ) = ∑ i = 1 n ∣ w i ∣ R(w)=\sum_{i=1}^n|w_i| R(w)=i=1∑n∣wi∣弹性网络(Elastic Net,介于L1和L2之间) R ( w ) = ρ 2 ∑ i = 1 n w i 2 + ( 1 − ρ ) ∑ i = 1 n ∣ w i ∣ R(w)=\frac{\rho}{2}\sum_{i=1}^{n}w_i^2+(1-\rho)\sum_{i=1}^{n}|w_i| R(w)=2ρi=1∑nwi2+(1−ρ)i=1∑n∣wi∣下图展示了对于当 R ( w ) = 1 R(w)=1 R(w)=1时,三个不同的正则化项的参数空间轮廓:
后记:
损失函数是机器学习三要素(模型、策略、算法)中,策略一项的核心。最小化损失函数的期望(aka ,also known as 风险函数)是机器学习的目标。风险函数包括了经验风险和结构风险(正则化项,aka惩罚项)两部分。
根据理解加深,本文会逐步完善。