机器学习笔记

最新推荐文章于 2020-11-20 15:40:06 发布

暮后

最新推荐文章于 2020-11-20 15:40:06 发布

阅读量561

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_35753857/article/details/103150897

版权

机器学习算法

内容涉及机器学习算法中的若干细节问题，马上面试了，整理一波。
【ps： 有的内容忘记贴原文链接，如果介意，请联系我，立即加上！】

SVM

svm是假设有一个超平面能将样本正确分类，而且使特征空间上的样本的间隔最大化的分类器。可以分为线性可分SVM（硬间隔SVM），线性近似可分SVM（软间隔），非线性可分SVM（利用核函数，非线性SVM）。通过将最大化间隔转换为最小化间隔分之一，利用拉格朗日乘子法将优化约束问题转化为凸的对偶问题，通过对各参数求导取0，得到各参数的表达，将其原式得到对偶问题，通过SMO（序列最小化）对对偶问题求解的过程。

原问题与对偶问题的关系

通过利用拉格朗日乘子法将原问题转换为其对偶问题，使得对偶问题的解是原问最优解的下界，在原问题中，我们要求最小化的解即是对偶问题的解。
为什么要把原问题转换为对偶问题？
因为原问题是凸二次规划问题，转换为对偶问题更加高效。
为什么求解对偶问题更加高效？
因为只用求解alpha系数，而alpha系数只有支持向量才非0，其他全部为0.
alpha系数有多少个？ 样本点的个数

KKT限制（https://www.jianshu.com/p/c3e23bf233f8）

KKT条件是确保了局部最优点是原函数最优解的充分条件
KKT可以概括为以下三个条件：拉格朗日函数L(a, b, x)= f(x) + ag(x)+bh(x)(https://blog.csdn.net/xianlingmao/article/details/7919597)
（1）拉格朗日函数L(a,b,x)对x求导为0;
（2）等式约束h(x)为0;
（3）不等式约束乘以拉格朗日乘子a*g(x)为0.
求取这三个等式之后就能得到候选最优值
对于SVM来说。KKT条件是：

$a_i\ge0$
$y_if(x_i)-1\ge0$
$a_i(y_if(x_i)-1)=0$

软间隔问题

软间隔问题是用来解决线性近似可分的样本集的SVM。其中，该方法允许一些样本点出错，但是这些出错的样本点应该尽量少，所以软间隔在原始的优化目标中加入一个惩罚项来对出错的样本进行控制。
优化的目标函数变为： $\min \frac{1}{2}||w||^2+C\sum_{i=1}^ml_{(0/1)}[y_if(x_i)-1]$
其中 $C$ 是惩罚系数，C越大，对分类出错的样本的个数就应该越小，要求更严格；C越小，允许出错的样本个数增大，要求放宽。
其中 $l_{(0/1)}(x)=1,x<0,0,x\ge 0$
但是这个函数非凸不连续，所以我们可以用合页损失函数（hinge loss function）来代替 hinge(x)=max(0,1-x)
同时引入松弛变量 $\gamma_i$ 表示样本不满足正确分类条件的程度，即 $\gamma_i=y_if(x_i)-1$
那么，此时的优化目标及约束变为：
$\quad$ $\min \frac{1}{2}||w||^2+C\sum_{i=1}^m\gamma_i$
$\quad$ $y_if(x_i)+\gamma_i\ge1$
$\quad$ $\gamma_i\ge0$
接着通过拉格朗日乘子法得到拉格朗日函数，对w,b, $\gamma_i$ 分别求导并令为0，带入原目标函数，得到其对偶问题。利用SMO序列最小化方法求解。
软间隔的KKT条件为：
(1) $a_i\ge0,\mu_i\ge0$
(2) $y_if(x_i)+\gamma_i\ge1$
(3) $a_i[y_if(x_i)+\gamma_i-1]=0$
(4) $\gamma_i\ge0,\mu_i\gamma_i=0$

非线性可分（核函数）

当样本空间线性不可分时，利用一个函数 $\phi$ 将其映射导更高维特征空间，使得其在高维空间中是线性可分的。这里有一个定理可以保证如果原始空间是有限维的，那么一定存在一个与之对应的高维空间，在这个空间上，样本是线性可分的。

此时，我们要得到的分类平面是 $f(x)=w^T\phi(x)+b$
优化的问题为：
$\quad$ $\frac{1}{2}||w||^2$
$\quad$ $y_i(w^T\phi(x_i)+b)\ge1$
其对偶问题为
$\sum_{i=1}^ma_i\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\phi(x_i)\phi(x_j)$
其中涉及到高维空间的内积计算 $\phi(x_i)\phi(x_j)$ ，很困难。所以引入核函数，
$k(x_i,x_j)=<\phi(x_i),\phi(x_j)>$
意义是，将高维空间的内积计算等价于在原始样本空间的某个函数的计算。
问题1：什么样的函数可以作为核函数
$k(x_i,x_j)$ 是核函数，当且仅当对于任意数据，核矩阵式半正定的。
问题2：常见的核函数及其应用背景
线性核： $k(x_i,x_j)=x_i^Tx_j$

最低0.47元/天解锁文章

暮后

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习笔记

机器学习算法SVMsvm是使特征空间上的间隔最大化的分类器。可以分为线性可分SVM（硬间隔SVM），线性近似可分SVM（软间隔），非线性可分SVM（利用核函数，非线性SVM）。通过将最大化间隔转换为最小化间隔分之一，然后利用拉格朗日乘子法将优化约束问题转化为无约束问题，通过对各参数求导取0，得到各参数的表达，将其原式得到对偶问题，通过SMO（序列最小化）对对偶问题求解的过程。原问题与对偶问题...
复制链接

扫一扫