SVM简介及简单推导

最新推荐文章于 2024-05-26 00:23:34 发布

沙漠之狐MSFollower

最新推荐文章于 2024-05-26 00:23:34 发布

阅读量534

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/LiuPeiP_VIPL/article/details/84075809

版权

机器学习专栏收录该内容

32 篇文章 0 订阅

订阅专栏

（1）最优超平面的定义：一个超平面，如果它能够将训练样本正确地分开，并且两类训练样本中离超平面最近的样本与超平面之间的距离最大，则这个超平面被称作最优超平面。其中，样本中离分类面最近的样本到分类超平面的距离被称作分类间隔。

（2）对于超平面H：g(x)=wx+b=0。求取任意点x到该平面的距离：将该点表示成向量x，则有x=x'+r*w/||w||。式中x'是x在H上的投影向量；r是x到H的垂直距离，w/||w||是w的单位向量。则有g(x)=wx+b=w(x'+r*w/||w||)+b=wx'+b+r* $w^{T}$ *w/||w||=0+r* $w^{T}$ *w/||w||=r*||w||。所以，r=|g(x)|\||w||。

线性可分支持向量机

在线性可分的情况下，我们的目的是得到一个超平面g(x)=wx+b=0，使得所有样本都能正确可分。我们知道

（1）对于给定的训练数据集T和超平面wx+b=0，我们设超平面对于任意的样本点( $x_{i},y_{i}$ )的函数间隔为 $\hat{r_{i}}=y_{i}*(wx_{i}+b)$ 。并且，我们认为超平面对于训练集的函数间隔是：所有样本函数间隔的最小值，即 $\hat{r} = min\{\hat{r_{i}}\}=min\{ y_{i}*(wx_{i}+b) \}$ 。

（2）函数间隔可以用来表示分类预测的正确性和确信度。但是，当超平面不变时(λ*wx+λb=0)，w和b同时放缩λ倍，会导致函数间隔放缩λ倍。因此，我们需要对分离超平面的法向量w进行规范化，使得间隔可以确定，这就是我们引入的几何间隔。设样本点( $x_{i},y_{i}$ )的几何间隔为： $r_{i}=y_{i}*(\frac{w}{||w||}x_{i}+\frac{b}{||w||})$ ，则样本集的几何间隔为： $r=min\{r_{i}\}=min\{y_{i}*(\frac{w}{||w||}x_{i}+\frac{b}{||w||})\}$ 。

根据超平面的定义，我们可知，求取支持向量机的目的就是在几何间隔中得到以下w和b：

$\begin{Bmatrix} max &r \\ s.t.& y_{i}*\(\frac{w}{||w||}x_{i}+\(\frac{b}{||w||})) \geqslant r,i=1,2,3,4...\\ \end{matrix}$

同理，推广到函数间隔中，可以得到：

$\begin{Bmatrix} max &\quad {}\frac{\hat{r}}{||w||} \\ s.t.& y_{i}*\(x_{i}+b) \geqslant \hat{r}},i=1,2,3,4...\\ \end{matrix}$

（3） $\hat_{r}$ 来自于 $\hat{r_{i}}=y_{i}*(wx_{i}+b)$ ，所以它的变化对最优解问题的不等式约束没有影响(因为其他样本点构造的 $\hat_{r_{i}}$ 同样放缩)，对目标函数的优化（求取max）也没有影响。为了简单方便，我们令 $1=\hat_{r}$ ，则有等价问题：

$\begin{Bmatrix} max &\quad {}\frac{1}{||w||} \\ s.t.& y_{i}*\(x_{i}+b) \geqslant \1,i=1,2,3,4...\\ \end{matrix}$

并且可以将其转化为：

$\begin{Bmatrix} min &\quad {}\frac{||w||^{2}}{2} \\ s.t.& y_{i}*\(x_{i}+b)-1 \geqslant \0,i=1,2,3,4...\\ \end{matrix}$

（4）使用对偶性质解决问题时，一方面可以使原始问题更容易求解；另一方面对偶问题引入了核函数，可以推广到非线性分类的问题上。将上述原始问题转换为对偶问题步骤为：

①对每一个不等式约束引入拉格朗日乘子 $\alpha_{i}\geqslant 0,\quad i=1,2,3,4...$ ，则构建拉格朗日函数为

$L(w,b,\alpha )=\frac{||w||^{2}}{2}-\sum_{i=1}^N\alpha_iy_i(wx_i+b)+\sum_{i=1}^N\alpha_i \quad,i=1,2,3,4...$

②根据拉格朗日函数，原始问题的对偶问题是极大极小值问题：

$\underset{\alpha}{max}(\underset{w,b}{min}L(w,b,\alpha))$

③欲求拉格朗日函数 $L(w,b,\alpha)$ 的最小值，应分别对w和b求偏导，并令其偏导值为0：

$\begin{Bmatrix} \bigtriangledown_{b}L(w,b,\alpha)=0&\quad\\ \bigtriangledown_{w}L(w,b,\alpha)=0 &\\ \end{matrix}$

即有：

$\begin{Bmatrix} \quad\sum_{i=1}^N}\alpha_{i}y_{i}x_{i}=w&\quad\\ \sum_{i=1}^{N}\alpha_{i}y_{i}=0&\\ \end{matrix}$

将解带入 $L(w,b,\alpha)$ ，可以得到：

$\underset{w,b}{min}L(w,b,\alpha)=-\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}*x_{j})+\sum_{i=1}^{N}\alpha_{i}$ ④求 $\underset{\alpha}{max}(\underset{w,b}{min}L(w,b,\alpha))$ ，就是对 $\underset{w,b}{min}L(w,b,\alpha)$ 求关于α的极大值，即有：

$\begin{Bmatrix} max &-{}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}*x_{j})+\sum_{i=1}^{N}\alpha_{i} \\ s.t.& \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ,\alpha_{i}\geqslant0,(i=1,2,3,4...N)\\ \end{matrix}$

转化为：

$\begin{Bmatrix} min &{}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}*x_{j})-\sum_{i=1}^{N}\alpha_{i} \\ s.t.& \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ,\alpha_{i}\geqslant0,(i=1,2,3,4...N)\\ \end{matrix}$ ⑤根据库恩-塔克条件，只有使 $\alpha_{j}^*> 0$ ，才会出现 $y_{j}(w^**x_{j}+b^*)-1=0$ 的点 $(x_{j},y_{j})$ ，这些样本点就是离分类超平面最近的那些样本(支持向量点)，并决定最优超平面的位置。由以上叙述可求得解：

$\begin{Bmatrix} &w^*=\sum_{i=1}^{N}\alpha_{i}^*y_{i}x_{i}\\ & b^*=y_{j}-\sum_{i=1}^{N}\alpha_{i}^{*}y_{i}(x_{i}*x_{j})\\ \end{matrix}$

上式求解的过程中， $(x_{j},y_{j})$ 是任意一个 $\alpha_{j}^*> 0$ 的样本点， $(x_{i},y_{i})$ 是所有 $\alpha_{i}^*> 0$ 的样本点。

⑥原始问题构造的分离超平面可以写作：

$\sum_{i=1}^{N}\alpha_{i}^* *y_{i}(x*x_{i})+b^*=0$

分类决策函数就可以写作：

$f(x)=sign(\sum_{i=1}^{N}\alpha_{i}^* *y_{i}(x*x_{i})+b^*)$

沙漠之狐MSFollower

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SVM简介及简单推导

（1）最优超平面的定义：一个超平面，如果它能够将训练样本正确地分开，并且两类训练样本中离超平面最近的样本与超平面之间的距离最大，则这个超平面被称作最优超平面。其中，样本中离分类面最近的样本到分类超平面的距离被称作分类间隔。（2）对于超平面H：g(x)=wx+b=0。求取任意点x到该平面的距离：将该点表示成向量x，则有x=x'+r*w/||w||。式中x'是x在H上的投影向量；r是x到H的垂直距...
复制链接

扫一扫

专栏目录