SVM 支持向量机算法（Support Vector Machine ）【Python机器学习系列（十四）

2401_84181221

已于 2024-04-17 12:21:18 修改

阅读量718

点赞数 11

分类专栏： 2024年程序员学习文章标签：算法机器学习支持向量机

于 2024-04-17 12:21:16 首次发布

本文链接：https://blog.csdn.net/2401_84181221/article/details/137867840

版权

2024年程序员学习专栏收录该内容

70 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

x_1

x1,

x_2

x2,

x_3

x3,…

x_n

xn。y 的取值只能有+1和-1.

欲将这些样本分为二类，则需要找到中间的超平面。该超平面表示为：

\omega^Tx + b = 0

ωTx+b=0

其中

\omega

ω 称为法向量，其决定了超平面的方向。

点到超平面的距离可以表示为

∣

r_i = \frac{|\omega^Tx_i + b |}{||\omega||}

ri=∣∣ω∣∣∣ωTxi+b∣

这里的

x_i

xi指的不再是超平面上的点，而是样本点的向量。

以二维的情况中点与线的关系为例进行说明，假设有一个点点A(m,n) 和一条线ax+by+c=0，则当点在线上时，直线的等号会刚好成立。当点分布于直线的两侧时，分别可写作am+bn+c>0，am+bn+c<0。多维情况下，也是同理。

再结合点到超平面的距离公式，

r_i

ri也可以写为：

∣

r_i =\frac{\omega^Tx_i + b}{||\omega||}y_i

ri=∣∣ω∣∣ωTxi+byi

其中，位于超平面

\omega^Tx_i + b = 0

ωTxi+b=0 左右的标签对应的y_i的正负不要设定反了，只有设定正确该公式才可以保证得到正值。不然的话保证得到的就会是负值。

然后就是要寻找 支持向量。支持向量是距离超平面最近的点的向量，分布在超平面的两边，所以这样的点至少有两个，即支持向量至少有两个。（至少左右各一个）。

我们下一步要做的，即：求

r_i

ri关于

x_i

xi的极小值，再求该极小值关于

\omega

ω和

b的极大值。

对该距离公式的分子，

\omega^Tx_i + b

ωTxi+b，即超平面的方程

\omega^Tx + b = 0

ωTx+b=0 的一部分，考虑到超平立面的方程，就像二维的直线方程一样是可以放缩的（登号两边同乘以一个数），因此可以通过放缩，使得

\omega^Tx_i + b =1

ωTxi+b=1成立。以此作为限制条件，这样就可以把分母消去了。

该约束条件可表示为

∣

≥

∣

r_i =\frac{\omega^Tx_i + b}{||\omega||}y_i≥\frac{1}{||\omega||}

ri=∣∣ω∣∣ωTxi+byi≥∣∣ω∣∣1

提示：这里的限制条件只用了一个表达式表示，实际上有m个（m也是样本点的个数）。每个样本点对应一个限制条件。
当且仅目标当样本

x_i

xi为支持向量时，等号成立，取得点到超平面的最小距离

∣

\frac{1}{||\omega||}

∣∣ω∣∣1。

目标函数，即点到超平面的最小距离

∣

\frac{1}{||\omega||}

∣∣ω∣∣1。要使该最小距离最大化，即

∣

||\omega||

∣∣ω∣∣最小，为了后边计算方便，进一步将研究问题及表达式转化为，求

∣

\frac{1}{2}||\omega||^2

21∣∣ω∣∣2关于

\omega

ω和

b的最小值。
目标函数即：

∣

min_{\omega,b}\frac{1}{2}||\omega||^2

minω,b21∣∣ω∣∣2

进一步，限制条件可再转化为：

(

)

−

≥

(\omega^Tx_i + b)y_i-1 ≥ 0

(ωTxi+b)yi−1≥0

2.2 Part2 SVM拉格朗日乘子法求解

现在我们已经得到了目标函数表达式与限制条件的表达式，可以使用拉格朗日乘子法对其进行求解。
构建拉格朗日函数表达式如下：

(

)

∣

∑

[

−

(

)

]

L(\omega,b,\lambda)=\frac{1}{2}||\omega||^2+\sum_{i=1}{m}{\lambda_i}{[1-(\omega^Tx_i+b)y_i]}

L(ω,b,λ)=21∣∣ω∣∣2+∑i=1mλi[1−(ωTxi+b)yi]

∑

[

−

(

)

]

=\frac{1}{2}\omega^T \omega+\sum_{i=1}^{{m}{\lambda_i}{[1-(\omega}Tx_i+b)y_i]}

=21ωTω+∑i=1mλi[1−(ωTxi+b)yi]

目标问题是一个凸二次规划问题：目标函数是二次型函数，且约束函数是仿射函数。所以该问题有全局最小值。

其中，

\lambda

λ是拉格朗日乘子，这里的m是样本的个数，每个样本对应一个拉格朗日算子，共计m个拉格朗日算子，对应m个限制条件。

对

(

)

对F(\omega,b,\lambda)

对F(ω,b,λ)求关于

\omega

ω 和

b的偏导，并令其为0，再求解：

∂

(

)

∂

−

∑

\frac{∂L(\omega,b,\lambda)}{∂\omega}=\omega-\sum_{i=1}^{m}\lambda_iy_ix_i=0

∂ω∂L(ω,b,λ)=ω−∑i=1mλiyixi=0

∂

(

)

∂

−

∑

\frac{∂L(\omega,b,\lambda)}{∂b}=-\sum_{i=1}^{m}\lambda_iy_i=0

∂b∂L(ω,b,λ)=−∑i=1mλiyi=0

解得

∑

\omega=\sum_{i=1}^{m}\lambda_iy_ix_i

ω=∑i=1mλiyixi

∑

0=\sum_{i=1}^{m}\lambda_iy_i

0=∑i=1mλiyi

将求解结果带回原

(

)

L(\omega,b,\lambda)

L(ω,b,λ)，并进一步化简得：

(

)

∑

−

∑

−

∑

L(\omega,b,\lambda)=\frac{1}{2}\omega^T \omega+\sum_{i=1}^{m}\lambda_i -\omega^T\sum_{i=1}{m}\lambda_iy_ix_i-b\sum_{i=1}^{m}\lambda_iy_i

L(ω,b,λ)=21ωTω+∑i=1mλi−ωT∑i=1mλiyixi−b∑i=1mλiyi

∑

−

=\sum_{i=1}^{{m}\lambda_i-\frac{1}{2}\omega}T\omega

=∑i=1mλi−21ωTω

∑

−

(

∑

)

(

∑

)

=\sum_{i=1}^{m}\lambda_i - \frac{1}{2}( \sum_{i=1}^{{m}\lambda_iy_ix_i)}T (\sum_{i=1}^{m}\lambda_iy_ix_i)

=∑i=1mλi−21(∑i=1mλiyixi)T(∑i=1mλiyixi)

∑

−

∑

=\sum_{i=1}^{{m}\lambda_i-\frac{1}{2}\sum_{i=1}}{m}\sum_{j=1}^{{m}\lambda_i\lambda_jy_iy_jx_i}Tx_j

=∑i=1mλi−21∑i=1m∑j=1mλiλjyiyjxiTxj

上边已经说到，将这两个表达式带入

(

)

L(\omega,b,\lambda)

L(ω,b,λ)后，我们得到的新的表达式中已经没有了

\omega

ω和

b，只剩下的参数为

\lambda

λ，这个新表达式的限制条件即为我们带入的两个式子，这两个式子表示该表达式关于

\omega

ω和

b的极小值。

进而求关于

\lambda

λ的极值，到此要求解的函数已经转化为：

∑

−

∑

\sum_{i=1}^{{m}\lambda_i-\frac{1}{2}\sum_{i=1}}{m}\sum_{j=1}^{{m}\lambda_i\lambda_jy_iy_jx_i}Tx_j

∑i=1mλi−21∑i=1m∑j=1mλiλjyiyjxiTxj

要求解的是该式关于

\lambda

λ的极大值，所以也即求解

∑

−

∑

\frac{1}{2}\sum_{i=1}^{{m}\sum_{j=1}}{m}\lambda_i\lambda_jy_iy_jx_i^{Tx_j-\sum_{i=1}}{m}\lambda_i

21∑i=1m∑j=1mλiλjyiyjxiTxj−∑i=1mλi

的极小值。

限制条件为：

s.t.

∑

\sum_{i=1}^{m}\lambda_iy_i=0

∑i=1mλiyi=0

≥

\lambda_i≥0

λi≥0, i=1,2,…,m

2.3 Part3 求解超平面

目标函数：

min_{\omega,b}

minω,b

∑

−

∑

\frac{1}{2}\sum_{i=1}^{{m}\sum_{j=1}}{m}\lambda_i\lambda_jy_iy_jx_i^{Tx_j-\sum_{i=1}}{m}\lambda_i

21∑i=1m∑j=1mλiλjyiyjxiTxj−∑i=1mλi

限制条件：

s.t.

∑

\sum_{i=1}^{m}\lambda_iy_i=0

∑i=1mλiyi=0

≥

\lambda_i≥0

λi≥0, i=1,2,…,m

然后接下来，不难发现这是一个二次规划问题，将每个样本点的

x_i

xi、

y_i

yi替换为样本值数字，然后求目标函数关于

\lambda_1

λ1，

\lambda_2

λ2，… ，

\lambda_n

λn的偏导数，并令其等于0，从而得到m个等式，联立这 m 个等式，以及

∑

\sum_{i=1}^{m}\lambda_iy_i=0

∑i=1mλiyi=0进行求解。理论上即可以求出

\lambda_1

λ1，

\lambda_2

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

−

∑

\frac{1}{2}\sum_{i=1}^{{m}\sum_{j=1}}{m}\lambda_i\lambda_jy_iy_jx_i^{Tx_j-\sum_{i=1}}{m}\lambda_i

21∑i=1m∑j=1mλiλjyiyjxiTxj−∑i=1mλi

的极小值。

限制条件为：

s.t.

∑

\sum_{i=1}^{m}\lambda_iy_i=0

∑i=1mλiyi=0

≥

\lambda_i≥0

λi≥0, i=1,2,…,m

2.3 Part3 求解超平面

目标函数：

min_{\omega,b}

minω,b

∑

−

∑

\frac{1}{2}\sum_{i=1}^{{m}\sum_{j=1}}{m}\lambda_i\lambda_jy_iy_jx_i^{Tx_j-\sum_{i=1}}{m}\lambda_i

21∑i=1m∑j=1mλiλjyiyjxiTxj−∑i=1mλi

限制条件：

s.t.

∑

\sum_{i=1}^{m}\lambda_iy_i=0

∑i=1mλiyi=0

≥

\lambda_i≥0

λi≥0, i=1,2,…,m

然后接下来，不难发现这是一个二次规划问题，将每个样本点的

x_i

xi、

y_i

yi替换为样本值数字，然后求目标函数关于

\lambda_1

λ1，

\lambda_2

λ2，… ，

\lambda_n

λn的偏导数，并令其等于0，从而得到m个等式，联立这 m 个等式，以及

∑

\sum_{i=1}^{m}\lambda_iy_i=0

∑i=1mλiyi=0进行求解。理论上即可以求出

\lambda_1

λ1，

\lambda_2

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）
[外链图片转存中…(img-MHUjZLuh-1713327599184)]

2401_84181221

关注

11
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
SVM 支持向量机算法（Support Vector Machine ）【Python机器学习系列（十四）

以二维的情况中点与线的关系为例进行说明，假设有一个点点A(m,n) 和一条线ax+by+c=0，则当点在线上时，直线的等号会刚好成立。多维情况下，也是同理。ωTx+b=0 的一部分，考虑到超平立面的方程，就像二维的直线方程一样是可以放缩的（登号两边同乘以一个数），因此可以通过放缩，使得。支持向量是距离超平面最近的点的向量，分布在超平面的两边，所以这样的点至少有两个，即支持向量至少有两个。λ是拉格朗日乘子，这里的m是样本的个数，每个样本对应一个拉格朗日算子，共计m个拉格朗日算子，对应m个限制条件。
复制链接

扫一扫