Andrew Ng机器学习入门学习笔记（六）之支持向量机（SVM）

最新推荐文章于 2024-08-15 19:32:28 发布

SCUT_Arucee

最新推荐文章于 2024-08-15 19:32:28 发布

阅读量1.3w

点赞数 4

分类专栏：机器学习模式识别文章标签：机器学习 svm 支持向量机

本文链接：https://blog.csdn.net/SCUT_Arucee/article/details/50419229

版权

本文深入探讨支持向量机（SVM），从优化目标出发，揭示其为何被称为大间距分类器。解释SVM如何通过最大化间隔来构建决策边界，以及核函数在构造非线性分类器中的作用。同时，介绍了参数C和σ2对模型的影响，并提供了SVM在实际应用中的选择和使用建议。

摘要由CSDN通过智能技术生成

一.支持向量机的引入

支持向量机（SVM）是一种极受欢迎的监督学习算法，为了引入支持向量机，我们首先从另一个角度看逻辑回归。

1.从单个样本代价考虑

假设函数 $h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$ 。由于S型函数有如下图的特性，

这里写图片描述

则，如果 $y=1$ ，那我们希望 $h_\theta(x)≈1$ ,即 $\theta^Tx>>0$ ；如果 $y=0$ ，那我们希望 $h_\theta(x)≈0$ ,即 $\theta^Tx<<0$ 。

对于逻辑回归，对于单个样本 $(x,y)$ ，其代价为

- (y l o g h θ (x) + (1 - y) l o g (1 - h θ (x))) = - y l o g 1 1 + e - θ T x - (1 - y) l o g (1 - 1 1 + e - θ T x)

$-(ylog h_\theta(x)+(1-y)log (1-h_\theta(x)))=-ylog \frac{1}{1+e^{-\theta^Tx}}-(1-y)log (1-\frac{1}{1+e^{-\theta^Tx}})$

①如果 $y=1$ ，上述单个样本代价函数中只有第一项起作用，第二项为 $0$ 。

令 $z=\theta^Tx$ ，此时代价随 $z$ 的变化曲线如下图所示

这里写图片描述

结合此图也可以看出对于正样本（即， $y=1$ ），为了使代价 $-log \frac{1}{1+e^{-\theta^Tx}}$ 最小，我们将设置 $\theta^Tx$ 比较大，这时代价接近于 $0$ 。

在支持向量机中这种情况可以用两条线段作为新的代价函数 $cost_1(z)$ ，如下图桃红色部分

这里写图片描述

②如果 $y=0$ ，上述单个样本代价函数中只有第二项起作用，第一项为 $0$ 。

此时代价随 $z$ 的变化曲线如下图所示，

这里写图片描述

结合此图也可以看出对于负样本（即， $y=0$ ），为了使代价 $-log (1-\frac{1}{1+e^{-\theta^Tx}})$ 最小，我们将设置 $\theta^Tx$ 比较大，这时代价接近于 $0$ 。

在支持向量机中可以用两条线段作为新的代价函数 $cost_0(z)$ ，如下图桃红色部分

这里写图片描述

2.从优化目标考虑

对于逻辑回归，优化目标是

m i n θ J (θ) = m i n θ [1 m \sum i = 1 m y (i) (- l o g h θ (x (i))) + (1 - y (i)) (- l o g (1 - h θ (x (i)))) + λ 2 m \sum j = 1 n θ 2 j]

$\displaystyle\mathop{\mathrm{min}}\limits_{\theta} J(\theta)=\mathop{\mathrm{min}}\limits_{\theta}[\frac{1}{m}\sum_{i=1}^my^{(i)}(-log h_\theta(x^{(i)}))+(1-y^{(i)})(-log (1-h_\theta(x^{(i)})))+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2]$
支持向量机就是要将其中的

(−loghθ(x(i))) $(-log h_\theta(x^{(i)}))$ 换成前面

y=1 $y=1$ 时新的单个样本代价

cost1(θTx(i)) $cost_1(\theta^Tx^{(i)})$ ，将

(−log(1−hθ(x(i)))) $(-log (1-h_\theta(x^{(i)})))$ 换成前面

y=0 $y=0$ 时新的单个样本代价

cost0(θTx(i)) $cost_0(\theta^Tx^{(i)})$ ，即

m i n θ J (θ) = m i n θ [1 m \sum i = 1 m y (i) c o s t 1 (θ T x (i)) + (1 - y (i)) c o s t 0 (θ T x (i)) + λ 2 m \sum j = 1 n θ 2 j]

$\displaystyle\mathop{\mathrm{min}}\limits_{\theta} J(\theta)=\mathop{\mathrm{min}}\limits_{\theta}[\frac{1}{m}\sum_{i=1}^my^{(i)}cost_1(\theta^Tx^{(i)})+(1-y^{(i)})cost_0(\theta^Tx^{(i)})+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2]$

又由于无论是否有 $\frac{1}{m}$ 都不会影响最小化的结果，故可以忽略 $\frac{1}{m}$ ；

同时正则化逻辑回归总的代价函数包括两项，即 $A+\lambda B$ （通过 $\lambda$ 控制 $A,B$ 间的平衡），SVM则通过另一种方式控制 $A,B$ 间的平衡，即 $CA+B$ 。

综上，SVM的优化目标为

m i n θ [C \sum i = 1 m y (i) c o s t 1 (θ T x (i)) + (1 - y (i)) c o s t 0 (θ T x (i)) + 1 2 \sum j = 1 n θ 2 j]

$\displaystyle\mathop{\mathrm{min}}\limits_{\theta}[C\sum_{i=1}^my^{(i)}cost_1(\theta^Tx^{(i)})+(1-y^{(i)})cost_0(\theta^Tx^{(i)})+\frac{1}{2}\sum_{j=1}^n\theta_j^2]$

二.SVM的决策边界

1.SVM优化目标进一步研究

为了最小化代价函数， $y=1$ 时，我们希望 $\theta^Tx\geqslant1$ ，而不仅仅像逻辑回归那样只要 $\theta^Tx\geqslant0$ ，就可以预测 $h_\theta(x)=1$ ；
同理， $y=0$ 时，我们希望 $\theta^Tx\leqslant-1$ ，而不仅仅像逻辑回归那样只要 $\theta^Tx<0$ ，就可以预测 $h_\theta(x)=0$ 。