一、正则化
在统计机器学习中,我们常常希望将我们的变量或者权重进行一定的约束,假设我们的模型为y=ax+b
,我们希望对a
加以限制,一般有两种选择:
注意这两种选择中要求的值都是 a & b a \& b a&b,而不是 x x x,所以对 a a a进行了约束
约束问题:对a的取值加以限制,然后用最小二乘法进行求解,分为等式约束、大小于号约束
constraint form: ( a ^ , b ^ ) = arg min θ ∑ i ( y i − ( a x i + b ) ) 2 s . t a 2 ⩽ c o r g ( a ) = 0 (\hat a, \hat b) = \underset {\theta}{\operatorname {arg\,min}} \underset {i}{\sum}(y_{i}-(ax_{i}+b))^2~~s.t~~a^{2} \leqslant c~~or~~g(a)=0 (a^,b^)=θargmini∑(yi−(axi+b))2 s.t a2⩽c or g(a)=0
其中 a ^ = N ∑ i x i y i − ∑ i x i ∑ i y i N ∑ i x i 2 − ( ∑ i x i ) 2 \hat a=\frac{N\sum_{i}x_{i}y_{i}-\sum_{i}x_{i}\sum_{i}y_{i}}{N\sum_{i}x_{i}^{2}-(\sum_{i}x_{i})^{2}} a^=N∑ixi2−(∑ixi)2N∑ixiyi−∑ixi∑iyi, b ^ = ∑ i y i − a ^ ∑ i x i N \hat b=\frac{\sum_{i}y_{i}-\hat a\sum_{i}x_{i}}{N} b^=N∑iyi−a^∑ixi
无约束问题:同时对最小二乘法和参数a进行最小化
Unconstrained form: ( a ^ , b ^ ) = arg min θ ∑ i ( y i − ( a x i + b ) ) 2 + λ a 2 (\hat a, \hat b) = \underset {\theta}{\operatorname {arg\,min}} \underset {i}{\sum}(y_{i}-(ax_{i}+b))^2+\lambda a^{2} (a^,b^)=θargmini∑(yi−(axi+b))2+λa2
其中 a ^ = N ∑ i x i y i − ∑ i x i ∑ i y i N ∑ i x i 2 − ( ∑ i x i ) 2 + N λ \hat a=\frac{N\sum_{i}x_{i}y_{i}-\sum_{i}x_{i}\sum_{i}y_{i}}{N\sum_{i}x_{i}^{2}-(\sum_{i}x_{i})^{2}+N\lambda} a^=N∑ixi2−(∑ixi)2+NλN∑ixiyi−∑ixi∑iyi, b ^ = ∑ i y i − a ^ ∑ i x i N \hat b=\frac{\sum_{i}y_{i}-\hat a\sum_{i}x_{i}}{N} b^=N∑iyi−a^∑ixi
约束与无约束问题的解区别在于 a ^ \hat a a^的分母是否有 N λ N\lambda Nλ,进行正则化的原因是希望引入额外的信息能够帮助解决不适定的问题
二、约束问题
1. 转化为广义拉格朗日函数
考虑一个最优化问题,对于任意的
x
∈
c
x\in c
x∈c,原始问题可以表述为
min
x
f
(
x
)
,
s
.
t
g
(
x
)
=
0
,
h
(
x
)
⩽
0
\underset {x}{\operatorname {min}} f(x),~~s.t~~g(x)=0,h(x) \leqslant 0
xminf(x), s.t g(x)=0,h(x)⩽0
我们引入广义拉格朗日函数,其中
η
≥
0
\eta \geq 0
η≥0:
L
(
x
,
λ
,
η
)
=
f
(
x
)
+
λ
g
(
x
)
+
η
h
(
x
)
L(x, \lambda, \eta) = f(x)+\lambda g(x)+\eta h(x)
L(x,λ,η)=f(x)+λg(x)+ηh(x)
将上述公式进行转化为
Θ
p
(
x
)
\Theta_{p}(x)
Θp(x),其中
p
p
p表示原始问题:
Θ p ( x ) = max λ , η : η ≥ 0 L ( x , λ , η ) = { f ( x ) , x 满 足 原 始 问 题 约 束 + ∞ , 其 他 \Theta_{p}(x) = \underset {\lambda, \eta:\eta \geq0}{\operatorname {max}} L(x, \lambda, \eta) = \left\{\begin{matrix} f(x), & x满足原始问题约束\\ +\infty, & 其他 \end{matrix}\right. Θp(x)=λ,η:η≥0maxL(x,λ,η)={f(x),+∞,x满足原始问题约束其他
考虑极小值问题 min x Θ p ( x ) = min x max λ , η : η ≥ 0 L ( x , λ , η ) \underset {x}{\operatorname {min}} \Theta_{p}(x) =\underset {x}{\operatorname {min}} \underset {\lambda, \eta:\eta \geq0}{\operatorname {max}} L(x, \lambda, \eta) xminΘp(x)=xminλ,η:η≥0maxL(x,λ,η),注意此问题与 min x f ( x ) \underset {x}{\operatorname {min}} f(x) xminf(x)等价, min x max λ , η : η ≥ 0 L ( x , λ , η ) \underset {x}{\operatorname {min}} \underset {\lambda, \eta:\eta \geq0}{\operatorname {max}} L(x, \lambda, \eta) xminλ,η:η≥0maxL(x,λ,η)问题被称为广义拉格朗日函数的极小极大问题,定义其最优解:
p ∗ = min x Θ p ( x ) p^{*} = \underset {x}{\operatorname {min}} \Theta_{p}(x) p∗=xminΘp(x)
2. 引入对偶解拉格朗日函数
对偶问题:
注意对偶问题和上述问题不同,上述问题是求 L L L的最大值,这里是求最小值
Θ d ( λ , η ) = min x L ( x , λ , η ) \Theta_{d}(\lambda, \eta) = \underset {x}{\operatorname {min}} L(x, \lambda,\eta) Θd(λ,η)=xminL(x,λ,η)
考虑极大值问题
max
λ
,
η
Θ
d
(
λ
,
η
)
=
max
λ
,
η
min
x
L
(
x
,
λ
,
η
)
\underset {\lambda, \eta}{\operatorname {max}} \Theta_{d}(\lambda, \eta) =\underset {\lambda, \eta}{\operatorname {max}} \underset {x}{\operatorname {min}} L(x, \lambda, \eta)
λ,ηmaxΘd(λ,η)=λ,ηmaxxminL(x,λ,η),
max
λ
,
η
min
x
L
(
x
,
λ
,
η
)
\underset {\lambda, \eta}{\operatorname {max}} \underset {x}{\operatorname {min}} L(x, \lambda, \eta)
λ,ηmaxxminL(x,λ,η)问题被称为广义拉格朗日函数的极大极小问题,定义其最优解:
d
∗
=
min
λ
,
η
Θ
d
(
λ
,
η
)
d^{*} = \underset {\lambda, \eta}{\operatorname {min}} \Theta_{d}(\lambda, \eta)
d∗=λ,ηminΘd(λ,η)
3. 拉格朗日与其对偶问题的关系
上面我们已经写出了拉格朗日问题的最优解
p
∗
p^{*}
p∗以及其对偶问题的最优解
d
∗
d^{*}
d∗,二者关系:
max
λ
,
η
min
x
L
(
x
,
λ
,
η
)
=
d
∗
≤
p
∗
=
min
x
max
λ
,
η
:
η
≥
0
L
(
x
,
λ
,
η
)
\underset {\lambda, \eta}{\operatorname {max}} \underset {x}{\operatorname {min}} L(x, \lambda, \eta) = d^{*} \leq p^{*} = \underset {x}{\operatorname {min}} \underset {\lambda, \eta:\eta \geq0}{\operatorname {max}} L(x, \lambda, \eta)
λ,ηmaxxminL(x,λ,η)=d∗≤p∗=xminλ,η:η≥0maxL(x,λ,η)
上述关系
d
∗
≤
p
∗
d^{*} \leq p^{*}
d∗≤p∗是弱对偶条件,当“
=
=
=“成立时,变成强对偶条件,此时
d
∗
=
p
∗
d^{*} = p^{*}
d∗=p∗,可以用此结论来通过求解对偶问题得到拉格朗日函数的答案
对于可微函数,在KKT条件下强对偶成立,此时:
{ ▽ x f ( x ) + ▽ x λ g ( x ) + ▽ x η h ( x ) = 0 g ( x ) = 0 h ( x ) ≤ 0 η ≥ 0 η h ( x ) = 0 \left\{\begin{matrix} \bigtriangledown_{x}f(x)+\bigtriangledown_{x}\lambda g(x)+\bigtriangledown_{x}\eta h(x) = 0 \\ g(x) = 0 \\ h(x) \leq 0 \\ \eta \geq 0 \\ \eta h(x) = 0 \end{matrix}\right. ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧▽xf(x)+▽xλg(x)+▽xηh(x)=0g(x)=0h(x)≤0η≥0ηh(x)=0
**KKT条件:**分为三种,一种是无约束,一种是等式约束 g ( x ) = 0 g(x)=0 g(x)=0,另一种是不等式约束 h ( x ) ≤ 0 h(x)\leq 0 h(x)≤0