SVM

最新推荐文章于 2024-08-15 19:32:28 发布

kakak_

最新推荐文章于 2024-08-15 19:32:28 发布

阅读量820

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/104987457

版权

Machine Learning 专栏收录该内容

38 篇文章 2 订阅

订阅专栏

SVM

感知机

在三维空间或者更高维的空间，感知机的模型尝试找到一个超平面，能够把所有的二元类别隔离开。对于这个超平面，我们定义为𝑤𝑇𝑥+𝑏=0。在超平面上方𝑦=1,在超平面下方𝑦=−1。
点(x0,y0)到平面(y=Ax+By+C)的距离abs(A*x0+B*y0+C)/sqrt(A**2+B**2)

点x到超平面的相对距离 d = |𝑤𝑇𝑥+𝑏|
函数间隔 𝛾′ = 𝑦(𝑤𝑇𝑥+𝑏)
点到超平面的真正距离即几何间隔 𝛾 = 𝑦(𝑤𝑇𝑥+𝑏)/||𝑤||2
感知机模型的损失函数优化的思想是让所有误分类的点(定义为M)到超平面的距离和最小，即最小化
$\sum\limits_{x_i \in M}- y^{(i)}(w^Tx^{(i)} +b)\big / ||w||_2$
在感知机模型中，固定分母||𝑤||2=1 来简化损失函数。

支持向量

分离的超平面为𝑤𝑇𝑥+𝑏=0，如果所有的样本不仅可以被超平面分开，还和超平面保持一定的函数距离，那么该超平面是比感知机的超平面优的。（这样的超平面只有一个）
和超平面平行并保持一定函数距离的这两个超平面对应的向量（𝑤𝑇𝑥+𝑏= -l, 𝑤𝑇𝑥+𝑏= l)，我们定义为支持向量。
两条平行线之间的距离 abs(C1-C2)/sqrt(A**2+B**2)
支持向量到超平面的距离为l/||𝑤||2，两个支持向量之间的距离为2l/||𝑤||2

支持向量机

SVM的模型是让所有点到超平面的距离大于一定的距离，也就是所有的分类点要在各自类别的支持向量两边。一般我们都取函数间隔为1:
$\;\; \frac{1}{||w||_2} \;\; s.t \;\; y_i(w^Tx_i + b) \geq 1 (i =1,2,...m)$

等同于固定距离的分子来最大化距离（在每个点到平面的距离都大于1的情况下最大化距离平面最近的点）
$\;\; \frac{1}{2}||w||_2^2 \;\; s.t \;\; y_i(w^Tx_i + b) \geq 1 (i =1,2,...m)$
目标函数是凸函数，同时约束条件不等式是仿射的，
根据凸优化理论，我们可以通过拉格朗日函数将我们的优化目标转化为无约束的优化函数
$L(w,b,\alpha) = \frac{1}{2}||w||_2^2 - \sum\limits_{i=1}^{m}\alpha_i[y_i(w^Tx_i + b) - 1] \; \;s.t\;\alpha_i \geq 0$
可以看出目标函数减去了一项恒大于0的约束条件，所以目标函数等于Max(𝐿(𝑤,𝑏,𝛼))，即原目标函数等价于 $\underbrace{min}_{w,b}\; \underbrace{max}_{\alpha_i \geq 0} L(w,b,\alpha)$
我们的这个优化函数满足KKT条件(最下方)，也就是说，我们可以通过拉格朗日对偶将我们的优化问题转化为等价的对偶问题来求解 $\underbrace{max}_{\alpha_i \geq 0} \;\underbrace{min}_{w,b}\; L(w,b,\alpha)$

求𝐿(𝑤,𝑏,𝛼)基于𝑤和𝑏的极小值，可以通过对𝑤和𝑏分别求偏导数得到： $\frac{\partial L}{\partial w} = 0 \;\Rightarrow w = \sum\limits_{i=1}^{m}\alpha_iy_ix_i$
$\frac{\partial L}{\partial b} = 0 \;\Rightarrow \sum\limits_{i=1}^{m}\alpha_iy_i = 0$
上式已经求出𝑤和𝛼的关系，可以带入优化函数𝐿(𝑤,𝑏,𝛼)消去𝑤，并乘以-1转化为最小化目标函数:
$\underbrace{min}_{\alpha} \frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_j(x_i \bullet x_j) - \sum\limits_{i=1}^{m} \alpha_i$
此处成立的条件自然为𝛼𝑖≥0，并且两个偏导函数成立。
只要我们可以求出上式极小化时对应的𝛼向量(𝛼∗ )就可以求出𝑤和𝑏了（SMO算法）
$w^{*} = \sum\limits_{i=1}^{m}\alpha_i^{*}y_ix_i$

根据对偶互补条件𝛼𝑖(𝑦𝑖(𝑤𝑇𝑥𝑖+𝑏)−1)=0，如果𝛼𝑖>0则有𝑦𝑖(𝑤𝑇𝑥𝑖+𝑏)=1 即点在支持向量上，否则如果𝛼𝑖=0则有𝑦𝑖(𝑤𝑇𝑥𝑖+𝑏)≥1，即样本在支持向量上或者已经被正确分类。

对于任意支持向量(xs,ys):
$y_s(w^Tx_s+b) = y_s(\sum\limits_{i=1}^{m}\alpha_iy_ix_i^Tx_s+b) = 1$

假设我们有S个支持向量，则对应我们求出S个𝑏∗,理论上这些𝑏∗都可以作为最终的结果，但是我们一般采用一种更健壮的办法，即求出所有支持向量所对应的𝑏∗𝑠，然后将其平均值作为最后的结果。
最终的分类决策函数为：𝑓(𝑥)=𝑠𝑖𝑔𝑛(𝑤∗∙𝑥+𝑏∗)

SVM的假设：数据集必须是线性可分的