机器学习--支持向量机

雪頂咖啡

于 2024-07-24 11:04:52 发布

阅读量397

点赞数 8

文章标签：机器学习支持向量机人工智能

本文链接：https://blog.csdn.net/SHUA_y/article/details/140536294

版权

线性分类器回顾

在样本空间中寻找一个超平面，将不同类别的样本分开

超平面如何选择？👇

选”正中间“的：鲁棒性最好，泛化能力最强

间隔(Margin)与支持向量(Support Vector)

支持向量：在正例和负例中直接定义超平面(距离超平面间隔为1)的几个点

间隔：数据点到超平面的距离，距离越大时划分的把握越大

支持向量机(SVM)基本型

基本型

原来问题是线性可分的，找出这个问题”正中间“的划分。在划分的过程中，找到一个简单的优化技术。

最大间隔

——寻找参数 $\omega$ 和b，使得γ最大

👆 上式为凸二次规划问题，能用优化计算包求解，但可以有更高效的办法 -> 拉格朗日乘子法

**凸二次规划问题

        凸二次规划问题是凸优化问题的一个特殊形式，当目标函数是二次型函数且不等式约束函数 g 是仿射函数时，就变成一个凸二次规划问题。凸二次规划问题存在解。

凸二次规划问题的特征：
①目标函数f是二次型函数函数。
        ②等式约束h是仿射函数
        ③不等式约g是仿射函数

常用的二次规划问题求解方法有：
①椭球法
②内点法
③增广拉格朗日法
④梯度投影法

** 凸函数定义：

          $f(\frac{x_{1}+x_{2}}{2})$ ≤   $\frac{f(x_{1})+f(x_{2})}{2}$

** 仿射函数：

              最高次数为1的多项式函。常数项为零的仿射函数称为线性函数，线性函数是过原点的仿射函数。

对偶问题

对偶问题的表达式是原始问题的极小极化（或极大极化），其数学形式为：

$g(\lambda ,\nu ) = inf_xL(x,\lambda ,\nu )$ ，其中 λ ≥ 0 。

这里的 g ( λ , ν ) 是对偶函数，表示对拉格朗日函数L ( x , λ , ν ) 在所有可能的x下的最小值。

对偶问题的目标:

是找到对偶函数的最大值，即找到对偶函数的上界,使得对偶函数的最大值最大化，这个最大值对应于原始问题的最优值的下界。

拉格朗日乘子法求解最大间隔

解的特性--稀疏性

# $\alpha _{i} = 0$ ：以 $\alpha _{i}$ 为系数的点在最后预测的函数里面没有

$y_if(x_i) = 1$ ：恰好出现在间隔上的点

解的稀疏性：训练完成后，最终模型仅与支持向量(Support Vector Machine,SVM)有关

求解方法--SMO

基本思路：不断执行如下步骤直至收敛

· 第一步：选取一对需要过呢更新的变量 $\alpha _i$ 和 $\alpha _j$

` 第二步：固定 $\alpha _i$ 和 $\alpha _j$ 以外的参数，求解对偶问题更新 $\alpha _i$ 和 $\alpha _j$

## 违反KKT条件越多的点来更新，目标函数的提高越大 -> 到最后找不到点 -> 函数已经可收敛

=> 启发式简化做法：第一个点找违背KKT最多的点，第二个点找距离第一个点最远的点

简化方法的作用：减少计算量

SMO(迭代解法)：

## 为提高鲁棒性，通常使用所有支持向量求解平均值

**闭式解

解析解(又称“”闭式解“)，是指通过严格的公式所求得的解。即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。给出解的具体函数形式，从解的表达式中就可以算出任何对应值。用来求得解析解的方法称为解析法，解析法是常见的微积分技巧，如分离变量法等。解析解为一封闭形式的函数，因此对任一独立变量，皆可将其代入解析函数求得正确的相依变量。因此，解析解也称为闭式解。

特征空间映射

将样本从原始空间映射到一个更高维的特征空间，使样本在这个特征空间内线性可分

eg. 二维转化为三维，以面作为划分👇

## 如果原始空间是有限维(属性数有限)，那么一定存在一个高维特征坑见是样本线性可分

** 内积：从代数的角度来说，内积是两个向量之间的一种运算，其结果是一个实数。

## 优化方法：把矩阵乘法(内积部分)替换称一个好算的 -> 只需求出内积的结果 -> 核函数

核函数(Kernel Function)

基本思路：设计核函数

$\boldsymbol{x}^TS\boldsymbol{x}\geq 0$

核函数的作用：在空间中找到一个能形成距离的东西

绕过显示考虑特征映射、以及计算高维内积的困难？解决办法👇

Mercer定理：

若一个堆成函数所对于的核矩阵半正定，则它就能作为核函数来使用

## 核矩阵半正定：核矩阵满足距离矩阵的含义 (对角线上的项为0，矩阵的所有项都 ≥ 0)

eg.距离矩阵 $(x_{i},x_{j})$ ： $\begin{bmatrix} (x_i,x_i)&(x_i,x_j) \\(x_j,x_i) &(x_j,x_j) \end{bmatrix}$ ，其中 $(x_i,x_i),(x_j,x_j)$ 均为0，其余项都≥0

核矩阵 $k(x_i,x_j)$ ： $\begin{bmatrix} k(x_i,x_i)&k(x_i,x_j) \\k(x_j,x_i) &k(x_j,x_j) \end{bmatrix}$ ，其中 $k(x_i,x_i),k(x_j,x_j)$ 均为0，其余项都≥0

任何一个核函数，都隐式地定义了一个RKHS(Reproducing Kernel Hilbert Space，再生核希尔伯特空间)

##核函数选择成为决定支持向量机性能地关键

**半正定矩阵

判定条件：

        1.所有矩阵特征值 ≥ 0
        2.消元后的所有主元 ≥ 0
        3.矩阵的所有顺序主子式的行列式都 ≥ 0
        4.对于所有非零向量（不仅仅是特征向量）x，都有 $x^{T}Sx\geq0$
        5.如果矩阵A的列是线性有关的，则 $S = A^{T}A$ 是正定矩阵

**再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)

        再生核希尔伯特空间（RKHS）是一种特殊的函数空间，它由一个称为内积的线性结构和一个核函数定义。

        核函数是一个满足特定条件的映射，它将输入空间中的元素映射到一个特征空间，这个空间通常比原始输入空间更高维。在RKHS中，每个点都对应着一个特征向量，并且有一种神奇的性质，即通过核函数可以方便地计算出任意两个点的“相似度”而不必显式计算它们之间的距离。

再生核希尔伯特空间在机器学习领域广泛应用，如支持向量机、径向基函数网络和高斯过程回归等算法，因为它们提供了一种有效处理非线性问题的数学框架。



空间映射，将低维无法使用直线分隔样本点的空间，映射到高维可以使用平面分隔样本点的空间，具体思想案例如下图所示：