从最小二乘学习推出SVM

最新推荐文章于 2024-07-22 16:45:44 发布

q__y__L

最新推荐文章于 2024-07-22 16:45:44 发布

阅读量2.3k

点赞数

分类专栏：数学-凸优化 SVM 文章标签： svm 算法最小二乘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/q__y__L/article/details/53283485

版权

数学-凸优化同时被 2 个专栏收录

14 篇文章 8 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

$最小二乘和SVM都是大家熟悉的算法，但是一般讲SVM或者最小二乘时都不会讲到\\它们之间的联系，但实际上SVM是可以从最小二乘中推导出来的。$

关于最小二乘
$\quad为了便于理解后面的SVM,这里还是先简单说一下最小二乘学习法。\\以最容易的\ell_2约束的最小二乘学习法为例：$
首先定义误差函数 $J L S (θ) = 1 2 \sum i = 1 n (f θ (x i) - y i) 2$ $J_{LS}(\theta)=\frac{1}{2}\sum_{i=1}^{n}(f_\theta(x_i)-y_i)^2$
其中“LS”是Least Square的首字母，我么需要得到的是：
$θ^L S = a r g min θ J L S (θ)$ $\hat \theta_{LS}=arg\min_\theta J_{LS}(\theta)$
如果使用线性模型：
$f θ (x) = \sum j = 1 b θ i ϕ i (x) = θ T ϕ (X)$ $f_\theta(x)=\sum_{j=1}^b\theta_i\phi_i(x)=\mathrm {\theta^T\phi(X)}$
训练样本的平方差 $J_{LS}$ 就可以表示为：
$J L S (θ) = 1 2 ∥ Φ θ - y ∥ 2$ $J_{LS}(\theta)=\frac1 2\|\Phi\theta-y\|^2$
$这里y=(y_1,\ldots,y_n)^T是训练输出的n维向量，\Phi是下式定义的n\times b阶矩阵，也称设计矩阵$
$Φ = ⎛ ⎝ ⎜ ⎜ ϕ 1 (x 1) \dots ⋮ ϕ 1 (x n) \dots ϕ b (x 1) : ϕ b (x n) ⎞ ⎠ ⎟ ⎟$ $\Phi=\left( \begin{matrix} \phi _{1}\left( x_{1}\right) \ldots & \phi _{b}\left( x_{1}\right) \\ \vdots & :\\ \phi _{1}\left( x_{n}\right) \ldots & \phi _{b}\left( x_{n}\right) \end{matrix} \right)$
为了防止过拟合，我们通常对 $\theta$ 加以限制，这里用 $\ell_2$ 约束：
$s . t . ∥ θ ∥ 2 \leq R$ $s.t.\|\theta\|^2\le R$
最小二乘暂时就介绍到这里，至于解法不是我们的重点所以略过。
Hinge损失
对于二分类问题， $y\in\{-1,1\},我们得到\hat \theta后，测试模式x所对应的类\\别y的预测值\hat y,是由学习后的输出结果符号决定的。$
$y^= s i g n (f θ ˆ (x))$ $\hat y=sign(f_{\widehat {\theta }}\left( x\right))$
那么定义 $0/1损失为：$
$1 2 (1 - s i g n (f θ (x) y))$ $\frac1 2(1-sign(f_{\theta }\left( x\right) y))$
这个式子等价于：
$δ (s i g n (f θ (x) \neq y) = {0 (S i g n (f θ (x)) \neq y) 1 (s i g n (f θ (x)) = y)$ $\delta(sign(f_\theta (x)\neq y)=\begin{cases} 0\left( Sign\left( f_{\theta }\left( x\right) \right) \neq y\right) \\ 1\left( sign\left( f_{\theta }\left( x\right) \right) =y\right) \end{cases}$
定义 $m=f_{\theta }\left( x\right) y,则Hinge损失定义为：$
$m a x {0, 1 - m}$ $max\{0,1-m\}$ ,是训练样本相关的Hinge损失达到最小，就是Hinge损失最小化学习。因为有 $y\in\{-1,1\},所以y^2=1或\frac 1 y=y,那么\ell_2损失就可以不使用\\残差r=f_\theta(x)-y,而使用间隔m=f_\theta(x)y来表示：$
$r 2 = (y - f θ (x)) 2 = y 2 (1 - f θ (x) / y) 2 = (1 - f θ (x) y) 2 = (1 - m) 2$ $r^2=(y-f_\theta(x))^2=y^2(1-f_\theta(x)/y)^2=(1-f_\theta(x)y)^2=(1-m)^2$
$Hinge损失，当m\ge1的时候，与0/1损失相同，其损失为0，另一方面当m\le1的时候，\\其损失为1-m\gt0,当其损失为正的时候，\\与m相关的函数有倾向于负的趋势。Hinge的字面意思是合页，如下图就是合叶，\\Hinge损失就像合叶打开了135^o,因此而得来。$

$将损失与m的关系绘制出来如下：$

$接下来，Hinge最小化学习表示为：$
$min θ = \sum i = 1 n max {0, 1 - f θ (x i) y i}$ $\min_\theta=\sum_{i=1}^n\max\{0,1-f_\theta(x_i)y_i\}$
$接下来，对在核模型中引入截距\gamma的下式$
$f θ, γ (x) = \sum j = 1 n θ j K (x, x j) + γ$ $f_{\theta,\gamma}(x)=\sum_{j=1}^n\theta_j K(x,x_j)+\gamma$
进行Hinge最小化学习，加入使用了核矩阵 $K_{i,j}=K(x_i,x_j)的一般化\ell_2的正则化项。$
$min θ, γ [C \sum i = 1 n max {0, 1 - f θ, γ (x i) y i} + 1 2 \sum i, j = 1 n θ i θ j K (x i, x j)]$ $\min_{\theta,\gamma}[C\sum_{i=1}^n\max\{0,1-f_{\theta,\gamma}(x_i)y_i\}+\frac{1}{2}\sum_{i,j=1}^n\theta_i\theta_jK(x_i,x_j)]$
这里，为了与支持向量机分类器相对应，式中没有使用 $\lambda$ 作为正则化参数，而是使用了其倒数 $C=\frac 1 \lambda$ 。
我们引入虚拟变量 $\xi$ :
$max {0, 1 - m} = min ξ ξ s . t . ξ \geq 1 - m, ξ \geq 0$ $\max\{0,1-m\}=\min_\xi \xi\quad s.t.\xi\ge{1-m},\xi\ge0$
那么正则化Hinge损失最小化学习问题转换为：
$min θ, γ [C \sum i = 1 n ξ i + 1 2 \sum i, j = 1 n θ i θ j K (x i, x j)]$ $\min_{\theta,\gamma}[C\sum_{i=1}^n\xi_i+\frac{1}{2}\sum_{i,j=1}^n\theta_i\theta_jK(x_i,x_j)]$
约束条件为：
$ξ i \geq 1 - f θ, γ (x i) y i, ξ i \geq 0, \forall i = 1, \dots, n$ $\xi_i\ge{1-f_{\theta,\gamma}(x_i)y_i},\xi_i\ge0,\forall i=1,\ldots,n$
我们再回忆一下标准的SVM式子：
$min ω, γ, ξ 1 2 ∥ ω ∥ 2 + C \sum i = 1 n ξ i, s . t ξ i \geq 1 - (ω T ψ (x i) + γ) y i$ $\min_{\omega,\gamma,\xi}{\frac{1}{2}\|\omega\|^2+C\sum_{i=1}^n\xi_i},\quad s.t\quad \xi_i\ge{1-(\omega^T\psi(x_i)+\gamma)y_i}$
$ξ i \geq 0, \forall i = 1, \dots, n$ $\xi_i\ge0,\forall i=1,\ldots,n$
$在上面的优化问题中，设\omega=\sum_{j=1}^n\theta_j\psi(x_j)，如果利用条件\psi(x_i)^T\psi(x_j)=K(x_i,x_j)的话\\，就可以完成上面2个式子的转换了，也就是说支持向量机分类器可以用一般化\ell_2约束的\\Hinge损失最小化学习来解释。$

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

q__y__L CSDN认证博客专家 CSDN认证企业博客

码龄10年

112: 原创

3万+: 周排名

9288: 总排名

38万+: 访问

: 等级

3975: 积分

135: 粉丝

221: 获赞

61: 评论

771: 收藏

私信

关注

热门文章

分类专栏

最新评论

C# CallerMemberName特性介绍以及简化InotifyPropertyChanged的实现
Sfay: 在方法中获取调用方法的名称还可以通过System.Diagnostics。StackTrace类进行堆栈追踪，好处是可以获取方法详细信息，类似反射获取，具体方法： var stackTrace = new StackTrace(); var callerFrame = stackTrace.GetFrame(1); MethodBase? callerMethod = callerFrame.GetMethod();
Google.Protobuf 入门详解
2301_79263776: 好！找了一群都是抄来抄去没用的文章，感谢博主
C#关于接口的常见面试问题
白话机器学习: 内容丰富图文并茂，认真看完收获很大。思路清晰细节满满，支持大佬优质好文。
弱对偶理论与极大极小不等式的证明
weixin_42158501: 谢谢楼主，自己正好也在自学这么课，中科大的凌青老师说很容易证明，但自己想半天也没有想明白。。。
再说多线程（三）——Mutex类
q__y__L: 对，主要参考在这里：https://dotnettutorials.net/lesson/mutex-in-multithreading/。不过也不是全都是原网站的东西。Mutex没啥好说的，人家已经说的很好很详细了，我也就没写自己的理解，就当做个笔记了。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。