机器学习西瓜书和南瓜书第6章学习笔记-CSDN博客

本文链接：https://blog.csdn.net/2301_77354665/article/details/133281056

一、支持向量机

1.算法原理

从几何角度，对于线性可分数据集，支持向量机就是找距离正负样本都最远的超平面。相比于感知机，其解唯一且不偏不倚，泛化性能更好。

2.超平面

$n$ 维超平面 $\boldsymbol{w}^{T}\boldsymbol{x}-b=0$ 性质如下：

（1）超平面方程不唯一；

（2）法向量 $\boldsymbol{w}$ 和位移项 $b$ 确定唯一的超平面；

（3）法向量 $\boldsymbol{w}$ 垂直于超平面；

（4）法向量 $\boldsymbol{w}$ 指向的那一半空间为正空间，另一半为负空间；

（5）任一点 $\boldsymbol{x}_{0}$ 到超平面的距离公式为 $r=\frac{|\boldsymbol{w}^{T}\boldsymbol{x}_{0}-b|}{||\boldsymbol{w}||}$

3.几何间隔

给定数据集 $X$ 和超平面 $\boldsymbol{w}^{T}\boldsymbol{x}-b=0$ ， $(\boldsymbol{x}_{i},y_{i})\in X$ ， $y_{i}\in \left \{ -1,1 \right \}$ ， $i=1,2,...,m$ ，定义样本点 $(\boldsymbol{x}_{i},y_{i})$ 关于超平面的几何间隔为 $\gamma _{i}=\frac{y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)}{||\boldsymbol{w}||}$ 。正确分类时 $\gamma _{i}>0$ ，反之 $\gamma _{i}<0$ 。定义数据集 $X$ 关于超平面的几何间隔为所有样本点 $(\boldsymbol{x}_{i},y_{i})$ 关于超平面的几何间隔的最小值，即 $\gamma =min_{i=1,2,...,m}\gamma _{i}$ 。

4.支持向量机

给定线性可分数据集 $X$ ，支持向量机模型希望求得 $X$ 于超平面的几何间隔 $\gamma$ 的达到最大的超平面，套上sign函数实现分类功能。sign函数为

$y=sign(\boldsymbol{w}^{T}\boldsymbol{x}-b)=\left\{\begin{matrix}1,\boldsymbol{w}^{T}\boldsymbol{x}-b>0 \\ -1,\boldsymbol{w}^{T}\boldsymbol{x}-b<0 \end{matrix}\right.$

令 $\gamma =\frac{y_{min}(\boldsymbol{w}^{T}\boldsymbol{x}_{min}-b)}{||\boldsymbol{w}||}$ ， $\frac{y_{min}(\boldsymbol{w}^{T}\boldsymbol{x}_{min}-b)}{||\boldsymbol{w}||}\leqslant \frac{y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)}{||\boldsymbol{w}||}$ 即 ${y_{min}(\boldsymbol{w}^{T}\boldsymbol{x}_{min}-b)}\leqslant {y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)}$ 。令 ${y_{min}(\boldsymbol{w}^{T}\boldsymbol{x}_{min}-b)}=1$ ，则 $1-{y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)}\leqslant 0$ 。在此条件下求 $argmin_{\boldsymbol{w},b}\frac{1}{2}||\boldsymbol{w}||^{2}$ 。

求拉格朗日函数 $L(\boldsymbol{w},b,\boldsymbol{\alpha })=\frac{1}{2}||\boldsymbol{w}||^{2}+\sum_{i=1}^{m}\alpha _{i}-\sum_{i=1}^{m}\alpha _{i}y_{i}\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b\sum_{i=1}^{m}\alpha _{i}y_{i}$ 。将 $\boldsymbol{w}$ 和 $b$ 合并为 $\widehat{\boldsymbol{w}}=(\boldsymbol{w},b)$ ，求使 $L(\boldsymbol{w},b,\boldsymbol{\alpha })$ 的一阶偏导数为0的 $\widehat{\boldsymbol{w}}$ 代回去得到最小值。