统计学习理论的本质 笔记 6-8 函数估计与VRM

本文详细探讨了函数估计的方法,包括ε不敏感损失函数、回归函数估计的SVM及其多种解法,如线性优化方法。介绍了如何构造估计实值函数的核,如正交多项式展开、样条和傅里叶展开的核。此外,还讨论了支持向量ANOVA分解和解决不适定问题的方法。在统计学习理论的直接方法部分,讨论了密度、条件概率和条件密度的估计问题,以及用SVM解决这些问题的策略。
摘要由CSDN通过智能技术生成

6 函数估计的方法

6.1 ϵ \epsilon ϵ 不敏感损失函数

1964年 Huber 提出,如果我们只知道描述噪声的密度是一个对称函数,那么在最坏的噪声模型下最好的逼近(最小最大策略)为采用损失函数 L ( y , f ( x , α ) ) = ∣ y − f ( x , α ) ∣ L(y, f(x, \alpha)) = |y -f(x, \alpha)| L(y,f(x,α))=yf(x,α), 在这个损失函数下最小化经验风险的方法称为最小模方法,属于鲁棒回归(robust regression)方法。
Huber还考虑了正态噪声与某一对称噪声混合的情况,此时最优解在使用如下损失函数时得到
L ( ∣ y − f ( x , α ) ∣ ) = { c ∣ y − f ( x , α ) ∣ − c 2 2 i f    ∣ y − f ( x , α ) ∣ > c 1 2 ∣ y − f ( x , α ) ∣ 2 i f    ∣ y − f ( x , α ) ∣ ≤ c L(|y-f(x,\alpha)|) = \begin{cases} c|y-f(x,\alpha)| - \dfrac{c^2}{2} &if \ \ |y-f(x,\alpha)| > c \\ \dfrac{1}{2}|y-f(x,\alpha)|^2 &if \ \ |y-f(x,\alpha)| \le c \end{cases} L(yf(x,α))=cyf(x,α)2c221yf(x,α)2if  yf(x,α)>cif  yf(x,α)c
为了对实值函数(近似上面的损失函数)构造SVM,我们引入 ϵ \epsilon ϵ不敏感损失函数
∣ y − f ( x , α ) ∣ ϵ = ( ∣ y − f ( x , α ) ∣ − ϵ ) + |y-f(x,\alpha)|_\epsilon = (|y-f(x,\alpha)| - \epsilon)_+ yf(x,α)ϵ=(yf(x,α)ϵ)+

6.2 用于回归函数估计的SVM

对固定结构的解
设存在结构
S n = { ∣ y − ( w ⋅ x + b ) ∣ ϵ : w ⋅ w ≤ c n } S_n= \{|y-(w \cdot x + b)|_\epsilon:w \cdot w \le c_n\} Sn={ y(wx+b)ϵ:wwcn}
经验风险
R e m p ( w , b ) = 1 l ∑ i = 1 l ∣ y − ( w ⋅ x + b ) ∣ ϵ R_{emp}(w, b) = \dfrac{1}{l} \sum\limits_{i=1}^l |y-(w \cdot x + b)|_\epsilon Remp(w,b)=l1i=1ly(wx+b)ϵ

∣ y i − ( w ⋅ x i + b ) ∣ ϵ = ξ i 0 → ∣ y i − ( w ⋅ x i + b ) ∣ ≤ ϵ + ξ i 0 → y i − ( w ⋅ x i + b ) ≤ ϵ + ξ i ∗ ,    ( w ⋅ x i + b ) − y i ≤ ϵ + ξ i → R e m p ( w , b ) = ∑ i = 1 l ξ i + ∑ i = 1 l ξ i ∗ |y_i-(w \cdot x_i + b)|_\epsilon = \xi_{i0} \to |y_i-(w \cdot x_i + b)| \le \epsilon + \xi_{i0} \\ \to y_i-(w \cdot x_i + b) \le \epsilon + \xi^*_i, \ \ (w \cdot x_i + b) - y_i \le \epsilon + \xi_i\\ \to R_{emp}(w, b) = \sum\limits_{i=1}^l \xi_i + \sum\limits_{i=1}^l \xi^*_i yi(wxi+b)ϵ=ξi0yi(wxi+b)ϵ+ξi0yi(wxi+b)ϵ+ξi,  (wxi+b)yiϵ+ξiRemp(w,b)=i=1lξi+i=1lξi
上式省略了常数系数 1 / l 1/l 1/l。显然上式最小化后会有 ξ i ξ i ∗ = 0 \xi_i \xi^*_i = 0 ξiξi=0 ξ i + ξ i ∗ = ξ i 0 \xi_i + \xi^*_i = \xi_{i0} ξi+ξi=ξi0。故有约束条件
y i − ( w ⋅ x i + b ) ≤ ϵ + ξ i ∗ ,     ( w ⋅ x i + b ) − y i ≤ ϵ + ξ i ξ i ≥ 0 ,     ξ i ∗ ≥ 0 ,     w ⋅ w ≤ c n y_i-(w \cdot x_i + b) \le \epsilon + \xi^*_i,\ \ \ (w \cdot x_i + b) - y_i \le \epsilon + \xi_i\\ \xi_i \ge 0,\ \ \ \xi^*_i \ge 0,\ \ \ w \cdot w \le c_n yi(wxi+b)ϵ+ξi,   (wxi+b)yiϵ+ξiξi0,   ξi0,   wwcn
拉格朗日函数
L ( w , b , α , β , λ ) = ∑ i = 1 l ξ i + ∑ i = 1 l ξ i ∗ + ∑ i = 1 l β i ( − ξ i ) + ∑ i = 1 l β i ∗ ( − ξ i ∗ ) + λ 2 ( w ⋅ w − c n ) + ∑ i = 1 l α i ∗ ( y i − ( w ⋅ x i + b ) − ϵ − ξ i ∗ ) + ∑ i = 1 l α i ( ( w ⋅ x i + b ) − y i − ϵ − ξ i ) , α i ≥ 0 ,    α i ∗ ≥ 0 ,    β i ≥ 0 ,    β i ∗ ≥ 0 ,    λ ≥ 0 L(w, b, \alpha, \beta, \lambda) = \sum\limits_{i=1}^l \xi_i + \sum\limits_{i=1}^l \xi^*_i + \sum\limits_{i=1}^l \beta_i (-\xi_i) + \sum\limits_{i=1}^l \beta^*_i (-\xi^*_i) + \dfrac{\lambda}{2} (w \cdot w - c_n) \\+ \sum\limits_{i=1}^l \alpha^*_i (y_i - (w \cdot x_i +b) - \epsilon - \xi^*_i) + \sum\limits_{i=1}^l \alpha_i ((w \cdot x_i +b) - y_i - \epsilon - \xi_i) , \\ \alpha_i \ge 0,\ \ \alpha^*_i \ge 0,\ \ \beta_i \ge 0,\ \ \beta^*_i \ge 0,\ \ \lambda \ge 0 L(w,b,α,β,λ)=i=1lξi+i=1lξi+i=1lβi(ξi)+i=1lβi(ξi)+2λ(wwcn)+i=1lαi(yi(wxi+b)ϵξi)+i=1lαi((wxi+b)yiϵξi),αi0,  αi0,  βi0,  βi0,  λ0
目标为 max ⁡ α , β , λ min ⁡ w , b , ξ L \max\limits_{\alpha, \beta, \lambda}\min\limits_{w, b, \xi}L α,β,λmaxw,b,ξminL,对拉格朗日函数求梯度得
∂ L ∂ w = 0 → w = ∑ i = 1 l α i ∗ − α i λ x i ∂ L ∂ b = 0 → ∑ i = 1 l ( α i ∗ − α i ) = 0 ∂ L ∂ ξ i = 0 → α i + β i = 1 ∂ L ∂ ξ i ∗ = 0 → α i ∗ + β i ∗ = 1 \dfrac{\partial L}{\partial w} = 0 \to w = \sum\limits_{i=1}^l \dfrac{\alpha^*_i - \alpha_i}{\lambda} x_i\\ \dfrac{\partial L}{\partial b} = 0 \to \sum\limits_{i=1}^l (\alpha^*_i - \alpha_i) = 0\\ \dfrac{\partial L}{\partial \xi_i} = 0 \to \alpha_i + \beta_i = 1\\ \dfrac{\partial L}{\partial \xi^*_i} = 0 \to \alpha^*_i + \beta^*_i = 1 wL=0w=i=1lλαiαixibL=0i=1l(αiαi)=0ξiL=0αi+βi=1ξiL=0αi+βi=1
代入拉格朗日函数可得到该问题的对偶问题,最大化泛函
W ( α , λ ) = − ϵ ∑ i = 1 l ( α i ∗ + α i ) + ∑ i = 1 l y i ( α i ∗ − α i ) − 1 2 λ ∑ i , j = 1 l ( α i ∗ − α i ) ( α j ∗ − α j ) ( x i ⋅ x j ) − λ 2 c n W(\alpha, \lambda) = -\epsilon \sum\limits_{i=1}^l (\alpha^*_i + \alpha_i) + \sum\limits_{i=1}^l y_i (\alpha^*_i - \alpha_i) - \dfrac{1}{2\lambda}\sum\limits_{i,j=1}^l (\alpha^*_i - \alpha_i) (\alpha^*_j - \alpha_j) (x_i \cdot x_j) - \dfrac{\lambda}{2} c_n W(α,λ)=ϵi=1l(αi+αi)+i=1lyi(αiαi)2λ1i,j=1l(αiαi)(αjαj)(xixj)2λcn
约束条件
∑ i = 1 l ( α i ∗ − α i ) = 0 ,    0 ≤ α i ≤ 1 ,    0 ≤ α i ∗ ≤ 1 ,    λ ≥ 0 ,     β = 1 − α \sum\limits_{i=1}^l (\alpha^*_i -\alpha_i) = 0,\ \ 0 \le \alpha_i \le 1,\ \ 0 \le \alpha^*_i \le 1,\ \ \lambda \ge 0,\ \ \ \beta = 1- \alpha i=1l(αiαi)=0,  0αi1,  0αi1,  λ0,   β=1α
还需满足 Kuhn-Tucker条件
β i ξ i = 0 ,     β i ∗ ξ i ∗ = 0 ,     λ ( w ⋅ w − c n ) = 0 α i ∗ ( y i − ( w ⋅ x i + b ) − ϵ − ξ i ∗ ) = 0 ,     α i ( ( w ⋅ x i + b ) − y i − ϵ − ξ i ) = 0 \beta_i \xi_i = 0,\ \ \ \beta^*_i \xi^*_i = 0,\ \ \ \lambda (w \cdot w - c_n) = 0\\ \alpha^*_i (y_i - (w \cdot x_i +b) - \epsilon - \xi^*_i) = 0,\ \ \ \alpha_i ((w \cdot x_i +b) - y_i - \epsilon - \xi_i) = 0 βiξi=0,   βiξi=0,   λ(wwcn)=0αi(yi(wxi+b)ϵξi)=0,   αi((wxi+b)yiϵξi)=0
其中 α i ∗ − α i λ ≠ 0 \dfrac{\alpha^*_i - \alpha_i}{\lambda} \not = 0 λαiαi=0 的项决定了支持向量( x i x_i xi w w w 有贡献)。

采用软间隔的基本解
最小化泛函
Φ ( w , b ) = 1 2 w ⋅ w + C ( ∑ i = 1 l ξ i + ∑ i = 1 l ξ i ∗ ) \Phi(w, b) = \dfrac{1}{2} w \cdot w + C(\sum\limits_{i=1}^l \xi_i + \sum\limits_{i=1}^l \xi^*_i) Φ(w,b)=21ww+C(i=1lξi+i=1lξi)
拉格朗日函数
L ( w , b , α , β ) = 1 2 w ⋅ w + C ∑ i = 1 l ξ i + C ∑ i = 1 l ξ i ∗ + ∑ i = 1 l β i ( − ξ i ) + ∑ i = 1 l β i ∗ ( − ξ i ∗ ) + ∑ i = 1 l α i ∗ ( y i − ( w ⋅ x i + b ) − ϵ − ξ i ∗ ) + ∑ i = 1 l α i ( ( w ⋅ x i + b ) − y i − ϵ − ξ i ) , α i ≥ 0 ,    α i ∗ ≥ 0 ,    β i ≥ 0 ,    β i ∗ ≥ 0 L(w, b, \alpha, \beta) = \dfrac{1}{2} w \cdot w + C\sum\limits_{i=1}^l \xi_i + C\sum\limits_{i=1}^l \xi^*_i + \sum\limits_{i=1}^l \beta_i (-\xi_i) + \sum\limits_{i=1}^l \beta^*_i (-\xi^*_i)\\ + \sum\limits_{i=1}^l \alpha^*_i (y_i - (w \cdot x_i +b) - \epsilon - \xi^*_i) + \sum\limits_{i=1}^l \alpha_i ((w \cdot x_i +b) - y_i - \epsilon - \xi_i) ,\\ \alpha_i \ge 0,\ \ \alpha^*_i \ge 0,\ \ \beta_i \ge 0,\ \ \beta^*_i \ge 0 L(w,b,α,β)=21ww+Ci=1lξi+Ci=1lξi+i=1lβi(ξi)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值