SVM & 核技巧（数学推导）

最新推荐文章于 2024-06-15 17:38:09 发布

zhang_yan##

最新推荐文章于 2024-06-15 17:38:09 发布

阅读量647

点赞数 3

分类专栏：机器学习文章标签：机器学习支持向量机算法 svm

本文链接：https://blog.csdn.net/qq_42417814/article/details/117137288

版权

一种二分类模型，线性分类器，同时可以通过核变换来处理非线性问题，类似于感知器，但是SVM要求在特征空间上的间隔最大化
一句话介绍SVM
SVM是一种二分类模型，他的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔大使它有别于普通的感知机，通过核技巧隐式的在输入空间直接求解映射空间中特征向量的内积，使其成为一个非线性分类器。SVM的学习策略是间隔最大化，可形式化为一个求解凸二次规划问题。

如果我们选取一个半正定的核函数 $K (x, y)$ ,那么就存在函数 $\vec{\phi}(x) = (\phi_k(x)|k=1,2,...,r)$ ,使得
$K(x_i,y_i) = \vec{\phi}(x_i)^T \vec{\phi}(x_j)=\sum_l\phi^{(l)}(x_i)\phi^{(l)}(x_j)$
我们不需要去显式地计算 $\vec{\phi_k}(x_i)$ ，因为我们只需要内积 $\vec{\phi}(x_i)^T \vec{\phi}(x_j) = K(x_i,y_i)$ 的结果来计算分离最大间隔的超平面。
核函数是两个变量的对称函数，强调:核函数是半正定的，因为 $K (x, y)$ 是一个内积
为什么核函数必须是半正定的？
- 半正定矩阵的特征值非负
- 核函数必须是正半定的，以便它们具有合理的（非负）距离。那就是margins是正的。
常用的Kernel 有
- 多项式核： $K(x_1,x_2)=(x_1^Tx_2)^2$
- 高斯（RBF）核： $K(x_1,x_2)=e^{-\gamma\|x_1-x_2\|^2}$
Mercer’s Theorem: 任何半正定的对称函数都可以作为核函数
任何两个核函数的和、乘积也是核函数
一个核函数的n次方也是核函数

首先考虑点 $x$ 到超平面 $(w, b)$ 的距离，距离 $d$ 可以写为：
- $\frac{|w^T+b|}{\|w\|}$
求解能够正确划分训练数据集并且使几何间隔最大的分离超平面
分离超平面： $\omega x + b = 0$
我们的任务是找到一个由正交向量 $w, a$ 和一个临界值 $b$ 定义的分离平面，使得
- $y_k\big(\frac{w}{\|w\|}\ast x_k + b\big)\ge\Delta$
  
  其中 $y_i \in \{1,-1\}$ , $x\in R^n, \Delta$ 是margin
为了使分类更加精准，我们需要最大化 margin $\Delta$
对上式两边同时除以 $\Delta$ ，得到
- $y_k\big(\frac{w}{\Delta\|w\|}\ast x_k + \frac{b}{\Delta}\big)\ge1$
令 $\hat{w}= \frac{w}{\Delta\|w\|}, \hat{b} = \frac{b}{\Delta}$ ，有

关注