SVM——笔记

最新推荐文章于 2024-09-28 22:10:04 发布

last_summer_x

最新推荐文章于 2024-09-28 22:10:04 发布

阅读量91

点赞数

分类专栏：笔记文章标签： svm 机器学习

本文链接：https://blog.csdn.net/last_summer_x/article/details/103103908

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

SVM

点到超平面的距离
硬间隔分类器
软间隔分类器
SMO

点到超平面的距离

向量 $x$ 到超平面 $w^Tx+b$ 的距离为
$|w^T(x-x_0)|=|w||x-x_0|\cos \frac{\pi}{2}=||w||d$
又因为
$w^T(x-x_0)=w^Tx-w^Tx_0=w^Tx+b$
合并上两式
$\begin{aligned} |w^T(x-x_0)| &=|w^Tx+b|=||w||d \\ & \Rightarrow d=\frac{1}{||w||}|w^Tx+b| \end{aligned}$

硬间隔分类器

由于超平面有两端，再另一端则会出现负号，为了消除这个负号，我们乘上类标 $\in \{ -1,1\}$
$\gamma_i=y_i(w^Tx_i+b)$
结合点到超平面的距离公式，发现只需要除以 $∣ ∣ w ∣ ∣$ 就能将 $\gamma_i$ 转化为距离
$d_i=\frac{\gamma_i}{||w||}=\frac{y_i(w^Tx+b)}{||w||}$
为了使得每个向量到超平面的距离尽可能的大，只需要使最小的 $d_i$ 最大即可，同时，其他向量到超平面的距离会大于这个最小距离，即：
$\begin{aligned} \max_{w,b}\ & \frac{\gamma}{||w||} \\ s.t.\ & y_i(w^Tx_i+b) \ge 0,i=1,\dots,n \end{aligned}$
此处使得 $\gamma$ 取到最小的 $x_i$ 即为支持向量，支持向量机也就行想使得支持向量离超平面尽可能的远。
由于 $w, b$ 可以以任意比例缩放，所以令 $\gamma=1$ ，可推出
$\begin{aligned} \max_{w,b}\ & \frac{1}{||w||} \\ s.t.\ & y_i(w^Tx_i+b) \ge 1,i=1,\dots,n \end{aligned}$
当 $\frac{1}{||w||}$ 取得最大值时 $∣ ∣ w ∣ ∣$ 最小，故可再转化为
$\begin{aligned} \min_{w,b}\ & w^Tw \\ s.t.\ & y_i(w^Tx_i+b) \ge 1,i=1,\dots,n \end{aligned}$
为了解决带约束的最优化问题，使用拉格朗日乘子法，构建拉格朗日函数
$\mathcal{L}(w,b,\alpha)=\frac{1}{2}w^Tw+\sum_{i=1}^{n}{a_i \left[ 1- y_i(w^Tx_i+b) \right]}$
于是将问题转化为不带 $w, b$ 约束的优化问题
$\begin{aligned} \min_{w,b} & \max_{\alpha}\mathcal{L} \\ s.t.\ & \alpha_i \ge 0 \end{aligned}$
当 $1- y_i(w^Tx_i+b)$ 不满足约束时， $max_{\alpha}\mathcal{L}=$ ，这样是没有意义的。而当其满足约束时 $max_{\alpha}\mathcal{L}=0$ 。
再将其转化为对偶问题
$\begin{aligned} \max_{\alpha} & \min_{w,b}\mathcal{L} \\ s.t.\ & \alpha_i \ge 0 \end{aligned}$
先看最小化的部分，发现与 $\alpha$ 无关，于是可以直接对 $w, b$ 求导
$\begin{aligned} &\frac{\partial \mathcal{L}}{\partial b}=0 \Rightarrow \sum_{i=1}^{n}{\alpha_iy_i}=0\\ &\frac{\partial \mathcal{L}}{\partial w}=0 \Rightarrow w=\sum_{i=1}^{n}{\alpha_iy_ix_i} \end{aligned}$
将其带回原式
$\begin{aligned} \mathcal{L}&=\frac{1}{2}(\sum_{i=1}^{n}{\alpha_iy_ix_i})^T\sum_{j=1}^{n}{\alpha_jy_jx_j}-\sum_{i=1}^{n} \alpha_iy_i \left[ (\sum_{j=1}^{n}{\alpha_jy_jx_j})^Tx_i+b \right] +\sum_{i=1}^{n}\alpha_i\\ &=\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum_{i=1}^{n}\alpha_i\\ &=\sum_{i=1}^{n}\alpha_i-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j \end{aligned}$
将原约束问题转化为
$\begin{aligned} \max_{\alpha} & \sum_{i=1}^{n}\alpha_i-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j \\ s.t.\ & \sum_{i=1}^{n}{\alpha_iy_i}=0\\ &\ \alpha_i \ge 0 \end{aligned}$
但上式只能对 $w$ 求解，而对于 $b$ 的求解则需要用到KKT条件(因为函数 $\mathcal{L}$ 满足一些条件，故其满足KKT条件)
$\left\{ \begin{aligned} &\frac{\partial \mathcal{L}}{\partial w}=0, \frac{\partial \mathcal{L}}{\partial b}=0\\ &\pmb{\alpha_i \left[ 1-y_i(w^Tx_i+b)\right]=0}\\ &1-y_i(w^Tx_i+b) \le 0\\ &\alpha_i \ge 0 \end{aligned} \right.$
故当 $x_i$ 为支持向量时满足 $1-y_i(w^Tx_i+b)=0$ ，推出 $b=y_i-w^Tx_i$ ，再结合 $w$
$\left\{ \begin{aligned} &w^*=\sum_{i=1}^{n}{\alpha_iy_ix_i}\\ &b^*=y_i-(\sum_{j=1}^{n}{\alpha_jy_jx_j})^Tx_i \end{aligned} \right.$

软间隔分类器

在数据不能线性可分的情况下，硬间隔SVM是不收敛的，故在原有最优化条件上加一个损失，使其成为软间隔分离器
$\min_{w,b}\ w^Tw + C\sum_{i=1}^{n}(\max \left\{ 0,1-y_i(w^Tx_i+b) \right\})$
但是一般不会写成括号里的形式，令 $\max \left\{ 0,1-y_i(w^Tx_i+b) \right\}=\xi_i$ ，故将最优化问题转化为
$\begin{aligned} \min_{w,b}\ &w^Tw + C\sum_{i=1}^{n} \xi_i \\ s.t.\ & y_i(w^Tx_i+b) \ge 1-\xi_i \\ & \xi_i \ge 0 \end{aligned}$
引入拉格朗日乘子，并将其转化为对偶问题
$\begin{aligned} \max_{\alpha,\beta}\min_{w,b}\ & \mathcal{L}=w^Tw+C\sum_{i=1}^{n}\xi_i-\sum_{i=1}^{n}{\alpha_i\left[ \xi_i+y_i(w^Tx_i+b)-1 \right]}-\sum_{i=1}^{n}{\beta_i\xi_i}\\ \ & \alpha_i \ge 0\\ \ & \beta_i \ge 0 \end{aligned}$
同时，其满足KKT条件
$\left\{ \begin{aligned} &\frac{\partial \mathcal{L}}{\partial w}=0, \frac{\partial \mathcal{L}}{\partial b}=0, \frac{\partial \mathcal{L}}{\partial \xi}=0\\ &\alpha_i \left[ 1-y_i(w^Tx_i+b)\right]=0\\ &\beta_i\xi_i=0\\ &y_i(w^Tx_i+b)-1+\xi_i \le 0\\ &\xi_i,\alpha_i,\beta_i \ge 0 \end{aligned} \right.$
对 $w,b,\xi$ 分别求偏导得出：
$\begin{aligned} &\frac{\partial \mathcal{L}}{\partial b}=0 \Rightarrow \sum_{i=1}^{n}{\alpha_iy_i}=0\\ &\frac{\partial \mathcal{L}}{\partial w}=0 \Rightarrow w=\sum_{i=1}^{n}{\alpha_iy_ix_i}\\ &\frac{\partial \mathcal{L}}{\partial \xi}=0 \Rightarrow \xi_i=C-\beta_i \end{aligned}$
对 $\mathcal{L}$ 化简
$\begin{aligned} \mathcal{L}&=w^Tw-\sum_{i=1}^{n}\alpha_iy_i(w^Tx+b)+\sum_{i=1}^{n}\alpha_i+\sum_{i=1}^{n}(C-\alpha_i)\xi_i-\sum_{i=1}^{n}(C-\alpha_i)\xi_i\\ &=\sum_{i=1}^{n}\alpha_i-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j \end{aligned}$
优化问题转化为
$\begin{aligned} \max_{\alpha}\ & \sum_{i=1}^{n}\alpha_i-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j \\ s.t.\ & 0\le \alpha_i \le C,i=1,\dots,n\\ &\sum_{i=1}^{m}\alpha_iy_i=0 \end{aligned}$