【ML】_03_SVM（支持向量机）

最新推荐文章于 2024-03-26 19:30:09 发布

DamonDT

最新推荐文章于 2024-03-26 19:30:09 发布

阅读量136

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/qq_34330456/article/details/104652306

版权

ML 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

文章目录

【一】 SVM（Support Vector Machine，支持向量机）

【有监督】拥有核函数的分类算法，数学理论基础丰富

【二】拉格朗日 & KKT条件（LAGrange）

拉格朗日（LAGrange）可以把 constrain 变成 non-constrain，举个例子:

$\left\{ \begin{array} { l } { \bm { min \;\; {x_1}^2 + {x_2}^2 } } \\ \\ { \bm { s.t \;\,\,\, x_2-x_1 = -1 } } \end{array} \right. \;\;\;\bm \Rightarrow \;\;\; \bm { min \;\;\;x _ { 1 } ^ { 2 } + x _ { 2 } ^ { 2 } + \lambda \; ( x _ { 2 } - x _ { 1 } + 1 ) }$

等号条件处理

$\left\{ \begin{array} { l } { \bm { min \;\; f ( x ) } } \\ \\ { \bm { s.t \;\,\,\, g _ i(x) = 0, \;\;\; i = 1,2,...,m } } \end{array} \right. \;\;\;\bm \Rightarrow \;\;\; \bm { min \;\;\; f ( x ) + \sum _ { i = 1 } ^ { m } \red { \lambda _ { i } \cdot g _ { i } ( x ) } }$
不等号 条件处理

$\left\{ \begin{array} { l } { \bm { min \;\; f ( x ) } } \\ \\ { \bm { s.t \;\,\,\, h _ i(x) \leq 0, \;\;\; i = 1,2,...,m } } \end{array} \right. \;\;\;\bm \Rightarrow \;\;\; \left\{ \begin{array} { l } { \bm { min \;\;\; f ( x ) + \sum _ { i = 1 } ^ { m } \red { \lambda _ { i } \cdot h _ { i } ( x ) } } } \\ \\ { \bm { s.t \;\,\,\, \lambda _ { i } = 0, \;\;h _ { i } ( x ) \leq 0 } } \\ \\ { \bm { s.t \;\,\,\, \lambda _ { i } > 0, \;\;h _ { i } ( x ) = 0 } }\end{array} \right.$
KKT条件
$\bm { min \;\;\; f ( x ) + \sum _ { i = 1 } ^ { m } \red { \lambda _ { i } \cdot g _ { i } ( x ) } + \sum _ { j = 1 } ^ { m ^ { \prime } } \red { \mu _ { j } \cdot h _ { j } ( x ) } }$

$\; \left\{ \begin{array} { l } { \bm { \lambda _ { i } \, , \; \mu _ { j } \geq 0 , \;\;\; \forall i \;\,\forall j} } \\ \\ { \bm { h _ { j } ( x ) \leq 0, \;\;\; \mu _ { j } \cdot h _ { j } ( x ) = 0 , \;\;\; \forall j } } \end{array} \right.$

【三】手撕 SVM（必须掌握）

函数距离（ $\hat { d }$ ）+ 几何距离（d）

函数距离 和 几何距离 之间的关系（||W|| 是矩阵 W 的模）

$\frac { \hat { d } } { \| W \| }$

最大化 两条虚线间的间隔

$\gamma = \frac { 2 } { \| W \| }$

目标函数（数学模型）

$\left\{ \begin{array} { l } { \bm { min \, \frac { 1 } { 2 } \| w \| ^ { 2 } } } \\ \\ { \bm { y _ { i } \cdot ( w ^ { T } x _ { i } + b ) \geq 1 } } \end{array} \right.$
个别点 不满足限制条件：添加松弛变量 ξ

引入 松弛变量 ξ 后的 目标函数

$\left\{ \begin{array} { l } { \bm { min \,\; \frac { 1 } { 2 } \| w \| ^ { 2 } + \lambda \sum _ { i = 1 } ^ { n } \xi _ { i }} } \\ \\ { \bm { y _ { i } \cdot ( w ^ { T } x _ { i } + b ) \geq { 1- \xi_i } } } \end{array} \right.$
Hinge Loss 损失函数 ：正是因为 HingeLoss 的 零区域 对应的正是 非支持向量 的普通样本，从而所有的普通样本都 不参与 最终超平面的决定，这才是支持向量机最大的优势所在，对训练样本数目的依赖大大减少，而且提高了训练效率

$\bm { Loss = max \,(\, 0 \,,\, 1-y _ { i } ( w ^ { T } x _ { i } + b \,) }$
SVM 的 KKT 条件（不等号处理）

$\bm { min \;\;\; \frac { 1 } { 2 } | | w | | ^ { 2 } + \sum _ { i = 1 } ^ { n } \lambda _ { i } \cdot [\, 1 - y _ { i } \cdot ( w ^ { T } x _ { i } + b ) \,] }$

SVM 的 Dual Problem（对偶问题， $\bm \red { x _ { i } ^ { T } x _ { j } }$ 是使用 Kernel Trick 的关键）

$\bm { min \;\;\; - \frac { 1 } { 2 } \sum _ { i = 1 } ^ { n } \sum _ { j = 1 } ^ { n } \lambda _ { i } \, \lambda _ { j } \, y _ { i } \, y _ { j } \, \red { x _ { i } ^ { T } x _ { j } } + \frac { 1 } { 2 } \sum _ { i = 1 } ^ { n } \lambda _ { i } }$

$\; \left\{ \begin{array} { l } { \bm { \lambda _ { i } \geq 0 , \;\;\; \forall i } } \\ \\ { \bm { [\, 1 - y _ { i } \cdot ( w ^ { T } x _ { i } + b ) \,] \leq0 , \;\;\; \forall i } } \\ \\ { \bm { \lambda _i \cdot [\, 1 - y _ { i } \cdot ( w ^ { T } x _ { i } + b ) \,] = 0 , \;\;\; \forall i } } \\ \\ { \bm { \frac { \partial L } { \partial w } : w = \sum _ { i = 1 } ^ { n } \lambda _ { i } y _ { i } x _ { i } } } \\ \\ { \bm { \frac { \partial L } { \partial b } : \sum _ { i = 1 } ^ { n } \lambda _ { i } y _ { i } = 0 } } \end{array} \right.$

【四】 Kernel Trick（核函数）

Linear（线性核）
$\bm {x ^ { T } y}$

Polynomial（多项式核）
$\bm { ( 1 + x ^ { T } y ) ^ { d }}$

Gaussian（高斯核）
$\bm {exp \,(\frac { - \| x - y \| ^ { 2 } } { 2 \sigma ^ { 2 } })}$

如何选择核函数

如果特征的数量大到和样本数量差不多，则选用 LR 或者线性核的SVM
如果特征的数量小，样本的数量正常，则选用 SVM+高斯核函数
如果特征的数量小，样本的数量非常大，则需要手工添加一些特征从而变成第一种情况

【五】 SVM 代码使用（Sklearn）

from sklearn.svm import SVC, LinearSVC
'''
:param (参数)
decision_function_shape: 'ovo' 实现多分类
kernel: 选择不同的核函数
'''
svm = SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, decision_function_shape=None, degree=3,
		  gamma='auto', kernel='rbf', max_iter=-1, probability=False, random_state=None, shrinking=True,
    	  tol=0.001, verbose=False)

svm = LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True, intercept_scaling=1,loss='squared_hinge', 
		  		max_iter=1000, multi_class='ovr', penalty='l2', random_state=None, tol=0.0001, verbose=0)
'''
:object (方法)
svm.fit(X,y): SVM 是有监督的机器学习算法
svm.predict(X): 返回数据 X 预测的类别
'''

DamonDT

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【ML】_03_SVM（支持向量机）

文章目录【一】 SVM（Support Vector Machine，支持向量机）【二】手撕 SVM（必须掌握）【三】拉格朗日对偶性【四】 SVM 的 Dual Problem（对偶问题）【五】 Kernel Trick（核函数）  【一】 SVM（Support Vector Machine，支持向量机） 【有监督】拥有核函数的分类算法，数学理论基...
复制链接

扫一扫