统计学习(二):正则化

一、正则化

在统计机器学习中,我们常常希望将我们的变量或者权重进行一定的约束,假设我们的模型为y=ax+b,我们希望对a加以限制,一般有两种选择:

注意这两种选择中要求的值都是 a & b a \& b a&b,而不是 x x x,所以对 a a a进行了约束

约束问题:对a的取值加以限制,然后用最小二乘法进行求解,分为等式约束、大小于号约束

constraint form: ( a ^ , b ^ ) = arg min ⁡ θ ∑ i ( y i − ( a x i + b ) ) 2    s . t    a 2 ⩽ c    o r    g ( a ) = 0 (\hat a, \hat b) = \underset {\theta}{\operatorname {arg\,min}} \underset {i}{\sum}(y_{i}-(ax_{i}+b))^2~~s.t~~a^{2} \leqslant c~~or~~g(a)=0 (a^,b^)=θargmini(yi(axi+b))2  s.t  a2c  or  g(a)=0

其中 a ^ = N ∑ i x i y i − ∑ i x i ∑ i y i N ∑ i x i 2 − ( ∑ i x i ) 2 \hat a=\frac{N\sum_{i}x_{i}y_{i}-\sum_{i}x_{i}\sum_{i}y_{i}}{N\sum_{i}x_{i}^{2}-(\sum_{i}x_{i})^{2}} a^=Nixi2(ixi)2Nixiyiixiiyi b ^ = ∑ i y i − a ^ ∑ i x i N \hat b=\frac{\sum_{i}y_{i}-\hat a\sum_{i}x_{i}}{N} b^=Niyia^ixi

无约束问题:同时对最小二乘法和参数a进行最小化

Unconstrained form: ( a ^ , b ^ ) = arg min ⁡ θ ∑ i ( y i − ( a x i + b ) ) 2 + λ a 2 (\hat a, \hat b) = \underset {\theta}{\operatorname {arg\,min}} \underset {i}{\sum}(y_{i}-(ax_{i}+b))^2+\lambda a^{2} (a^,b^)=θargmini(yi(axi+b))2+λa2

其中 a ^ = N ∑ i x i y i − ∑ i x i ∑ i y i N ∑ i x i 2 − ( ∑ i x i ) 2 + N λ \hat a=\frac{N\sum_{i}x_{i}y_{i}-\sum_{i}x_{i}\sum_{i}y_{i}}{N\sum_{i}x_{i}^{2}-(\sum_{i}x_{i})^{2}+N\lambda} a^=Nixi2(ixi)2+NλNixiyiixiiyi b ^ = ∑ i y i − a ^ ∑ i x i N \hat b=\frac{\sum_{i}y_{i}-\hat a\sum_{i}x_{i}}{N} b^=Niyia^ixi

约束与无约束问题的解区别在于 a ^ \hat a a^的分母是否有 N λ N\lambda Nλ,进行正则化的原因是希望引入额外的信息能够帮助解决不适定的问题

二、约束问题

1. 转化为广义拉格朗日函数

考虑一个最优化问题,对于任意的 x ∈ c x\in c xc,原始问题可以表述为
min ⁡ x f ( x ) ,    s . t    g ( x ) = 0 , h ( x ) ⩽ 0 \underset {x}{\operatorname {min}} f(x),~~s.t~~g(x)=0,h(x) \leqslant 0 xminf(x),  s.t  g(x)=0,h(x)0
我们引入广义拉格朗日函数,其中 η ≥ 0 \eta \geq 0 η0
L ( x , λ , η ) = f ( x ) + λ g ( x ) + η h ( x ) L(x, \lambda, \eta) = f(x)+\lambda g(x)+\eta h(x) L(x,λ,η)=f(x)+λg(x)+ηh(x)
将上述公式进行转化为 Θ p ( x ) \Theta_{p}(x) Θp(x),其中 p p p表示原始问题:

Θ p ( x ) = max ⁡ λ , η : η ≥ 0 L ( x , λ , η ) = { f ( x ) , x 满 足 原 始 问 题 约 束 + ∞ , 其 他 \Theta_{p}(x) = \underset {\lambda, \eta:\eta \geq0}{\operatorname {max}} L(x, \lambda, \eta) = \left\{\begin{matrix} f(x), & x满足原始问题约束\\ +\infty, & 其他 \end{matrix}\right. Θp(x)=λ,η:η0maxL(x,λ,η)={f(x),+,x

考虑极小值问题 min ⁡ x Θ p ( x ) = min ⁡ x max ⁡ λ , η : η ≥ 0 L ( x , λ , η ) \underset {x}{\operatorname {min}} \Theta_{p}(x) =\underset {x}{\operatorname {min}} \underset {\lambda, \eta:\eta \geq0}{\operatorname {max}} L(x, \lambda, \eta) xminΘp(x)=xminλ,η:η0maxL(x,λ,η),注意此问题与 min ⁡ x f ( x ) \underset {x}{\operatorname {min}} f(x) xminf(x)等价, min ⁡ x max ⁡ λ , η : η ≥ 0 L ( x , λ , η ) \underset {x}{\operatorname {min}} \underset {\lambda, \eta:\eta \geq0}{\operatorname {max}} L(x, \lambda, \eta) xminλ,η:η0maxL(x,λ,η)问题被称为广义拉格朗日函数的极小极大问题,定义其最优解:

p ∗ = min ⁡ x Θ p ( x ) p^{*} = \underset {x}{\operatorname {min}} \Theta_{p}(x) p=xminΘp(x)

2. 引入对偶解拉格朗日函数

对偶问题:

注意对偶问题和上述问题不同,上述问题是求 L L L的最大值,这里是求最小值

Θ d ( λ , η ) = min ⁡ x L ( x , λ , η ) \Theta_{d}(\lambda, \eta) = \underset {x}{\operatorname {min}} L(x, \lambda,\eta) Θd(λ,η)=xminL(x,λ,η)

考虑极大值问题 max ⁡ λ , η Θ d ( λ , η ) = max ⁡ λ , η min ⁡ x L ( x , λ , η ) \underset {\lambda, \eta}{\operatorname {max}} \Theta_{d}(\lambda, \eta) =\underset {\lambda, \eta}{\operatorname {max}} \underset {x}{\operatorname {min}} L(x, \lambda, \eta) λ,ηmaxΘd(λ,η)=λ,ηmaxxminL(x,λ,η) max ⁡ λ , η min ⁡ x L ( x , λ , η ) \underset {\lambda, \eta}{\operatorname {max}} \underset {x}{\operatorname {min}} L(x, \lambda, \eta) λ,ηmaxxminL(x,λ,η)问题被称为广义拉格朗日函数的极大极小问题,定义其最优解:
d ∗ = min ⁡ λ , η Θ d ( λ , η ) d^{*} = \underset {\lambda, \eta}{\operatorname {min}} \Theta_{d}(\lambda, \eta) d=λ,ηminΘd(λ,η)

3. 拉格朗日与其对偶问题的关系

上面我们已经写出了拉格朗日问题的最优解 p ∗ p^{*} p以及其对偶问题的最优解 d ∗ d^{*} d,二者关系:
max ⁡ λ , η min ⁡ x L ( x , λ , η ) = d ∗ ≤ p ∗ = min ⁡ x max ⁡ λ , η : η ≥ 0 L ( x , λ , η ) \underset {\lambda, \eta}{\operatorname {max}} \underset {x}{\operatorname {min}} L(x, \lambda, \eta) = d^{*} \leq p^{*} = \underset {x}{\operatorname {min}} \underset {\lambda, \eta:\eta \geq0}{\operatorname {max}} L(x, \lambda, \eta) λ,ηmaxxminL(x,λ,η)=dp=xminλ,η:η0maxL(x,λ,η)
上述关系 d ∗ ≤ p ∗ d^{*} \leq p^{*} dp是弱对偶条件,当“ = = =“成立时,变成强对偶条件,此时 d ∗ = p ∗ d^{*} = p^{*} d=p,可以用此结论来通过求解对偶问题得到拉格朗日函数的答案

对于可微函数,在KKT条件下强对偶成立,此时:

{ ▽ x f ( x ) + ▽ x λ g ( x ) + ▽ x η h ( x ) = 0 g ( x ) = 0 h ( x ) ≤ 0 η ≥ 0 η h ( x ) = 0 \left\{\begin{matrix} \bigtriangledown_{x}f(x)+\bigtriangledown_{x}\lambda g(x)+\bigtriangledown_{x}\eta h(x) = 0 \\ g(x) = 0 \\ h(x) \leq 0 \\ \eta \geq 0 \\ \eta h(x) = 0 \end{matrix}\right. xf(x)+xλg(x)+xηh(x)=0g(x)=0h(x)0η0ηh(x)=0

**KKT条件:**分为三种,一种是无约束,一种是等式约束 g ( x ) = 0 g(x)=0 g(x)=0,另一种是不等式约束 h ( x ) ≤ 0 h(x)\leq 0 h(x)0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值