机器学习--支持向量机

线性分类器回顾

在样本空间中寻找一个超平面,将不同类别的样本分开

超平面如何选择?👇

选”正中间“的:鲁棒性最好,泛化能力最强

间隔(Margin)与支持向量(Support Vector)

支持向量在正例和负例中直接定义超平面(距离超平面间隔为1)的几个点

间隔:数据点到超平面的距离,距离越大时划分的把握越大

 

支持向量机(SVM)基本型

基本型

        原来问题是线性可分的,找出这个问题”正中间“的划分。在划分的过程中,找到一个简单的优化技术。

最大间隔

        ——寻找参数\omega和b,使得γ最大

👆 上式为凸二次规划问题,能用优化计算包求解,但可以有更高效的办法 -> 拉格朗日乘子法

**凸二次规划问题

        凸二次规划问题是凸优化问题的一个特殊形式,当目标函数是二次型函数且不等式约束函数 g 是仿射函数时,就变成一个凸二次规划问题。凸二次规划问题存在解。

凸二次规划问题的特征:
        ①目标函数f是二次型函数函数。
        ②等式约束h是仿射函数
        ③不等式约g是仿射函数

常用的二次规划问题求解方法有:
        ①椭球法
        ②内点法
        ③增广拉格朗日法
        ④梯度投影法

** 凸函数定义:

             f(\frac{x_{1}+x_{2}}{2}) ≤  \frac{f(x_{1})+f(x_{2})}{2} 

** 仿射函数:

              最高次数为1的多项式函常数项为零的仿射函数称为线性函数,线性函数是过原点的仿射函数。

对偶问题

对偶问题的表达式是原始问题的极小极化(或极大极化),其数学形式为:

         g(\lambda ,\nu ) = inf_xL(x,\lambda ,\nu ) ,其中 λ ≥ 0 。

这里的 g ( λ , ν ) 是对偶函数,表示对拉格朗日函数L ( x , λ , ν ) 在所有可能的x下的最小值。

对偶问题的目标:

        找到对偶函数的最大值,即找到对偶函数的上界,使得对偶函数的最大值最大化,这个最大值对应于原始问题的最优值的下界。

拉格朗日乘子法求解最大间隔

解的特性--稀疏性

 # \alpha _{i} = 0 :\alpha _{i}为系数的点在最后预测的函数里面没有

     y_if(x_i) = 1 :恰好出现在间隔上的点

解的稀疏性:训练完成后,最终模型仅与支持向量(Support Vector Machine,SVM)有关

求解方法--SMO

基本思路:不断执行如下步骤直至收敛

· 第一步:选取一对需要过呢更新的变量\alpha _i\alpha _j

` 第二步:固定\alpha _i\alpha _j以外的参数,求解对偶问题更新\alpha _i\alpha _j

## 违反KKT条件越多的点来更新,目标函数的提高越大 -> 到最后找不到点 -> 函数已经可收敛

=> 启发式简化做法:第一个点找违背KKT最多的点,第二个点找距离第一个点最远的点

      简化方法的作用: 减少计算量

SMO(迭代解法):

## 为提高鲁棒性,通常使用所有支持向量求解平均值

**闭式解

        解析解(又称“”闭式解“),是指通过严格的公式所求得的解。即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。给出解的具体函数形式,从解的表达式中就可以算出任何对应值。用来求得解析解的方法称为解析法,解析法是常见的微积分技巧,如分离变量法等。解析解为一封闭形式的函数,因此对任一独立变量,皆可将其代入解析函数求得正确的相依变量。因此,解析解也称为闭式解。


特征空间映射

将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性可分

eg. 二维转化为三维,以面作为划分👇

## 如果原始空间是有限维(属性数有限),那么一定存在一个高维特征坑见是样本线性可分

 

** 内积:从代数的角度来说,内积是两个向量之间的一种运算,其结果是一个实数。

## 优化方法:把矩阵乘法(内积部分)替换称一个好算的 -> 只需求出内积的结果 -> 核函数


核函数(Kernel Function)

基本思路:设计核函数

\boldsymbol{x}^TS\boldsymbol{x}\geq 0

核函数的作用:在空间中找到一个能形成距离的东西

绕过显示考虑特征映射、以及计算高维内积的困难?解决办法👇

Mercer定理:

        若一个堆成函数所对于的核矩阵半正定,则它就能作为核函数来使用

## 核矩阵半正定:核矩阵满足距离矩阵的含义 (对角线上的项为0,矩阵的所有项都 ≥ 0)

eg.距离矩阵(x_{i},x_{j}) :\begin{bmatrix} (x_i,x_i)&(x_i,x_j) \\(x_j,x_i) &(x_j,x_j) \end{bmatrix},其中(x_i,x_i),(x_j,x_j)均为0,其余项都≥0

     核矩阵k(x_i,x_j)\begin{bmatrix} k(x_i,x_i)&k(x_i,x_j) \\k(x_j,x_i) &k(x_j,x_j) \end{bmatrix},其中k(x_i,x_i),k(x_j,x_j)均为0,其余项都≥0

任何一个核函数,都隐式地定义了一个RKHS(Reproducing Kernel Hilbert Space,再生核希尔伯特空间)

##核函数选择成为决定支持向量机性能地关键

**半正定矩阵

判定条件:

        1.所有矩阵特征值 ≥ 0 
        2.消元后的所有主元 ≥ 0
        3.矩阵的所有顺序主子式的行列式都 ≥ 0 
        4.对于所有非零向量(不仅仅是特征向量)x,都有 x^{T}Sx\geq0
        5.如果矩阵A的列是线性有关的,则S = A^{T}A是正定矩阵

**再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)

        再生核希尔伯特空间(RKHS)是一种特殊的函数空间,它由一个称为内积的线性结构和一个核函数定义。

        核函数是一个满足特定条件的映射,它将输入空间中的元素映射到一个特征空间,这个空间通常比原始输入空间更高维。在RKHS中,每个点都对应着一个特征向量,并且有一种神奇的性质,即通过核函数可以方便地计算出任意两个点的“相似度”而不必显式计算它们之间的距离。

再生核希尔伯特空间在机器学习领域广泛应用,如支持向量机、径向基函数网络和高斯过程回归等算法,因为它们提供了一种有效处理非线性问题的数学框架。

        

空间映射,将低维无法使用直线分隔样本点的空间,映射到高维可以使用平面分隔样本点的空间,具体思想案例如下图所示:

** 如何找出合适的核函数替代内积?-> 模型选择技术,详情见:《机器学习--模型评估与选择》


如何使用SVM?

· 入门级——实现并使用各种版本SVM(支持向量机)

· 专业级——尝试、组合核函数

· 专家级——根据问题而设计目标函数、替代损失,进而用前面的解法求解

以回归学习为例:

基本思路:允许模型输出与时间输出间存在2ξ的差别

 ​​​​## 回归

        从分类的观点看,就是找一条线使所有的点尽可能地都离很近;而离得比较远的点则加一个惩罚 ξ,使其离线更近一点 (离得越远扣的越多)

# 间隔带内的点不及损失,间隔外的才计损失

 ξ-不敏感(Insensitive)损失函数

支持向量回归(SVR)

* 划分线两边 ξ 的取值可以不同 => 两边间隔带的宽度可以不同

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值