Coursera - 机器学习技法 - 课程笔记 - Week 6

Support Vector Regression

Kernel Ridge Regression

  • 类似对LR的处理,利用对最佳权重的表示理论,有:

min ⁡ β λ N ∑ n = 1 N ∑ m = 1 N β n β m K ( x n , x m ) + 1 N ∑ n = 1 N ( y n − ∑ m = 1 N β m K ( x n , x m ) ) 2 \min_\beta \frac \lambda N \sum_{n = 1}^N \sum_{m = 1}^N \beta_n \beta_m K(\bold x_n, \bold x_m) + \frac 1 N \sum_{n = 1}^N \left( y_n - \sum_{m = 1}^N \beta_m K(\bold x_n, \bold x_m) \right)^2 βminNλn=1Nm=1NβnβmK(xn,xm)+N1n=1N(ynm=1NβmK(xn,xm))2

  • 前一项可以视为对 β \beta β的基于 K K K的正则项,后一项是基于 K K K作为特征的 β \beta β的线性回归

E a u g ( β ) = λ N β T K β + 1 N ( β T K T K β − 2 β T K T y + y T y ) E_{aug}(\beta) = \frac \lambda N \beta^{\mathrm{T}} \bold K \beta + \frac 1 N (\beta^{\mathrm{T}} \bold K^{\mathrm{T}} \bold K \beta - 2\beta^{\mathrm{T}} \bold K^{\mathrm{T}} \bold y + \bold y^{\mathrm{T}} \bold y) Eaug(β)=NλβTKβ+N1(βTKTKβ2βTKTy+yTy)

  • 解析解?
  • 梯度( K \bold K K为对称矩阵):

∇ E a u g ( β ) = 2 N ( λ K β + K T K β − K T y ) = 2 N ( λ K T I β + K T K β − K T y ) = 2 N K T ( ( λ I + K ) β − y ) \begin{aligned} \nabla E_{aug} (\beta) &= \frac 2 N (\lambda \bold K \beta + \bold K^{\mathrm{T}} \bold K \beta - \bold K^{\mathrm{T}} \bold y) \\ &= \frac 2 N (\lambda \bold K^{\mathrm{T}} \bold I \beta + \bold K^{\mathrm{T}} \bold K \beta - \bold K^{\mathrm{T}} \bold y) \\ &= \frac 2 N \bold K^{\mathrm{T}} \left( (\lambda \bold I + \bold K) \beta - \bold y \right) \end{aligned} Eaug(β)=N2(λKβ+KTKβKTy)=N2(λKTIβ+KTKβKTy)=N2KT((λI+K)βy)

  • 梯度为0,一个可行解:

β = ( λ I + K ) − 1 y \beta = (\lambda \bold I + \bold K) ^ {-1} \bold y β=(λI+K)1y

  • 由于 K \bold K K半正定,对于 λ > 0 \lambda > 0 λ>0括号项的逆一定存在
  • 原始的岭回归针对线性回归,更加受限,训练的计算复杂度 O ( d 3 + d 2 N ) O(d^3 + d^2N) O(d3+d2N),预测的计算复杂度 O ( d ) O(d) O(d),对大数据友好
  • 核化岭回归针对非线性,更加灵活,训练 O ( N 3 ) O(N^3) O(N3),测试 O ( N ) O(N) O(N),对大数据不友好

## Support Vector Regression Primal

  • 核化岭回归——使用最小均方误差的SVM
  • 相比于soft-margin SVM:
    • 类似的边界,但是有更多的SV——训练更慢
    • 对偶系数更加稠密
  • 能够像标准SVM那样有稀疏的对偶系数——管道回归(Tube Regression)
    • 管道内不贡献误差,管道外以到管道的距离作为误差
    • ∣ s − y ∣ ≤ ϵ : 0 |s - y| \le \epsilon: 0 syϵ:0
    • ∣ s − y ∣ > ϵ : ∣ s − y ∣ − ϵ |s - y| \gt \epsilon: |s - y| - \epsilon sy>ϵ:syϵ
    • e r r ( y , s ) = max ⁡ ( 0 , ∣ s − y ∣ − ϵ ) err(y, s) = \max(0, |s - y| - \epsilon) err(y,s)=max(0,syϵ)
    • 称之为 ϵ \epsilon ϵ不敏感误差
  • tube loss类似平方误差,但是更少地受到异常点的影响
  • 含L2正则化的管道回归

min ⁡ w λ N w T w + 1 N ∑ n = 1 N max ⁡ ( 0 , ∣ w T z n − y ∣ − ϵ ) \min_{\bold w} \frac \lambda N \bold w^{\mathrm{T}} \bold w + \frac 1 N \sum_{n = 1}^N \max (0, |\bold w^{\mathrm{T}} \bold z_n - y| - \epsilon) wminNλwTw+N1n=1Nmax(0,wTznyϵ)

  • 修改成类似SVM的形式:

min ⁡ w , b 1 2 w T w + C ∑ n = 1 N max ⁡ ( 0 , ∣ w T z n + b − y n ∣ − ϵ ) \min_{\bold w, b} \frac 1 2 \bold w^{\mathrm{T}} \bold w + C \sum_{n = 1}^N \max (0, |\bold w^{\mathrm{T}} \bold z_n + b - y_n| - \epsilon) w,bmin21wTw+Cn=1Nmax(0,wTzn+bynϵ)

  • 约束变得可以微分:

min ⁡ b , w , ξ 1 2 w T w + C ∑ n = 1 N ξ n s.t. ⁡ ∣ w T z n + b − y n ∣ ≤ ϵ + ξ n ξ n ≥ 0 \begin{aligned} \min_{b, \bold w, \xi} &\quad \frac 1 2 \bold w^{\mathrm{T}} \bold w + C \sum_{n = 1}^N \xi_n \\ \operatorname{s.t.} &\quad |\bold w^{\mathrm{T}} \bold z_n + b - y_n| \le \epsilon + \xi_n \\ &\quad \xi_n \ge 0 \end{aligned} b,w,ξmins.t.21wTw+Cn=1NξnwTzn+bynϵ+ξnξn0

  • 去掉绝对值符号:

min ⁡ b , w , ξ 1 2 w T w + C ∑ n = 1 N ( ξ n ∨ + ξ n ∧ ) s.t. ⁡ − ϵ − ξ n ∨ ≤ y n − w T z n − b ≤ ϵ + ξ n ∧ ξ n ∨ ≥ 0 , ξ n ∧ ≥ 0 \begin{aligned} \min_{b, \bold w, \xi} &\quad \frac 1 2 \bold w^{\mathrm{T}} \bold w + C \sum_{n = 1}^N (\xi_n^\lor + \xi_n^\land) \\ \operatorname{s.t.} &\quad -\epsilon - \xi_n^\lor \le y_n - \bold w^{\mathrm{T}} \bold z_n - b \le \epsilon + \xi_n^\land \\ &\quad \xi_n^\lor \ge 0, \xi_n^\land \ge 0 \end{aligned} b,w,ξmins.t.21wTw+Cn=1N(ξn+ξn)ϵξnynwTznbϵ+ξnξn0,ξn0

  • 两个不同的 ξ \xi ξ分别表示上界和下界的误差
  • SVR参数:
    • C C C:正则项和违反程度的权衡参数
    • ϵ \epsilon ϵ:管道的宽度
  • QP: d ~ + 1 + 2 N \tilde d + 1 + 2N d~+1+2N个变量, 2 N + 2 N 2N + 2N 2N+2N个问题

SVR Dual

  • 对应的对偶拉格朗日乘数 α n ∨ , α n ∧ \alpha_n^\lor, \alpha_n^\land αn,αn
  • w = ∑ n ( α n ∧ − α n ∨ ) z n \bold w = \sum_n (\alpha_n^\land - \alpha_n^\lor) \bold z_n w=n(αnαn)zn
  • ∑ n ( α n ∧ − α n ∨ ) = 0 \sum_n (\alpha_n^\land - \alpha_n^\lor) = 0 n(αnαn)=0
  • 对条件的互补松弛性,乘积为0
    • α n ∧ ( ϵ + ξ n ∨ − y n + w T z n + b ) = 0 \alpha_n^\land (\epsilon + \xi_n^\lor - y_n + \bold w^{\mathrm{T}} \bold z_n + b) = 0 αn(ϵ+ξnyn+wTzn+b)=0
    • α n ∨ ( ϵ + ξ n ∨ + y n − w T z n − b ) = 0 \alpha_n^\lor (\epsilon + \xi_n^\lor + y_n - \bold w^{\mathrm{T}} \bold z_n - b) = 0 αn(ϵ+ξn+ynwTznb)=0
  • 对偶形式:

min ⁡ 1 2 ∑ n = 1 N ∑ m = 1 N ( α n ∧ − α n ∨ ) ( α m ∧ − α m ∨ ) k n , m + ∑ n = 1 N ( ( ϵ − y n ) α n ∧ + ( ϵ + y n ) α n ∨ ) s.t. ⁡ ∑ n = 1 N ( α n ∧ − α n ∨ ) = 0 0 ≤ α n ∧ ≤ C , 0 ≤ α n ∨ ≤ C \begin{aligned} \min &\quad \frac 1 2 \sum_{n = 1}^N \sum_{m = 1}^N (\alpha_n^\land - \alpha_n^\lor) (\alpha_m^\land - \alpha_m^\lor) k_{n, m} + \sum_{n = 1}^N ( (\epsilon - y_n) \alpha_n^\land + (\epsilon + y_n) \alpha_n^\lor) \\ \operatorname{s.t.} &\quad \sum_{n = 1}^N (\alpha_n^\land - \alpha_n^\lor) = 0 \\ &\quad 0 \le \alpha_n^\land \le C, 0 \le \alpha_n^\lor \le C \end{aligned} mins.t.21n=1Nm=1N(αnαn)(αmαm)kn,m+n=1N((ϵyn)αn+(ϵ+yn)αn)n=1N(αnαn)=00αnC,0αnC

  • 对于严格在管道内的点 ∣ w T z n + b − y n ∣ < ϵ |\bold w^{\mathrm{T}} \bold z_n + b - y_n| \lt \epsilon wTzn+byn<ϵ
    • ξ n ∧ = 0 , ξ n ∨ = 0 \xi_n^\land = 0, \xi_n^\lor = 0 ξn=0,ξn=0
    • 内项不为0,对偶系数为零,即 ( α n ∧ − α n ∨ ) = 0 (\alpha_n^\land - \alpha_n^\lor) = 0 (αnαn)=0
  • 只有在管道外的点才会有非零的 ( α n ∧ − α n ∨ ) (\alpha_n^\land - \alpha_n^\lor) (αnαn)——稀疏的对偶系数

Summary of Kernel Model

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值