手打SVM公式推导以及利用对偶学习算法求解全过程

最新推荐文章于 2023-12-18 17:42:07 发布

页页读

最新推荐文章于 2023-12-18 17:42:07 发布

阅读量485

点赞数 1

分类专栏：机器学习文章标签：机器学习 SVM 公式推导

本文链接：https://blog.csdn.net/u014386899/article/details/108770655

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

该博客详细介绍了支持向量机（SVM）的公式推导过程，从硬间隔到软间隔，再到核函数的运用。通过最大化间隔和引入拉格朗日乘子，将原问题转化为对偶问题。博主通过求导和KKT条件展示了如何求解SVM的权重向量和偏置项，并给出了分类决策函数的表达式。内容深入浅出，适合机器学习初学者理解SVM的工作原理。

摘要由CSDN通过智能技术生成

手打SVM公式推导以及利用对偶学习算法求解全过程

视频地址
以下是看完视频的笔记，涉及 SVM公式的推导、求解全过程：

svm三宝：间隔、对偶，核函数。
SVM分为：硬间隔SVM、软间隔SVM、核函数。

公式推导：

$\left \{ \begin{aligned} & max margin(w, b) \\ & s.t. \quad y_i(w^Tx_i+b) > 0, (i \in {1,2,...,N}) \\ \end{aligned} \right.$

由于 $y_i$ =-1或者+1，由点到直线的距离公式可推：
$\begin{aligned} max margin(w,b) &= \underset{w,b}{max} \underset{x_i}{min} distance(w, b, x_i) \\ & =\underset{w,b}{max} \underset{x_i}{min} \frac{1}{||w||} |w^Tx_i+b|\\ & =\underset{w,b}{max} \frac{1}{||w||} \underset{x_i}{min} |w^Tx_i + b| \\ & = \underset{w,b}{max} \frac{1}{||w||} \underset{x_i}{min} y_i(w^Tx_i+b) \\ \end{aligned}$

由于同时对w,b进行缩放不影响超平面 $w^Tx_i + b$ 的表达。所以，我们令 $y_i(w^Tx_i+b)=1$ ,则上式可化为：
$\begin{aligned} max margin(w,b) & = \underset{w,b}{max} \frac{1}{||w||} \\ & = \underset{w,b}{min} \frac{1}{2} ||w|| \end{aligned}$

这里的 $\frac{1}{2}$ 是我们方便求导加上去的，不影响求最值。这里的 $∣ ∣ w ∣ ∣$ 就是w的2范数，也就是 $w^Tw$ .
所以，最终 SVM的公式可表示为：
$\left \{ \begin{aligned} & \underset{w,b}{min} \frac {1}{2}w^Tw \\ & s.t. \quad \underset{w,b}{min} y_i(w^Tx_i+b)=1 \\ \end{aligned} \right.$

也就是：
$\left \{ \begin{aligned} & \underset{w,b}{min} \frac {1}{2}w^Tw \\ & s.t. \quad y_i(w^Tx_i+b) \geq 1 \\ \end{aligned} \right.$

也就是：
$\left \{ \begin{aligned} & \underset{w,b}{min} \frac {1}{2}w^Tw \\ & s.t. \quad 1- y_i(w^Tx_i+b) \leq 0 \\ \end{aligned} \right.$

求解

考虑上面的这个带约束的二次凸优化问题，我们可以利用拉格朗日公式化为无约束优化问题，然后，转化为一个最小最大的原始问题，
然后，由于二次凸优化问题，对偶问题的解=原始问题的解。并且，强对偶满足KKT条件，我们就可以利用KKT条件对拉格朗日公式进行求导，进而求出最优值。

带约束的问题：
$\left \{ \begin{aligned} & \underset{w,b}{min} \frac {1}{2}w^Tw \\ & s.t. \quad 1- y_i(w^Tx_i+b) \leq 0 \\ \end{aligned} \right.$

利用拉格朗日公式化为无约束问题：引入参数 $\lambda_i = {\lambda_1, \lambda_2, ... , \lambda_N}$
$\begin{aligned} L(w,b, \lambda) = \frac{1}{2}w^Tw + \sum_{i=1}^N \lambda_i(1-y_i(w^Tx_i+b)) \end{aligned}$

则带约束的问题可以转化为下面无约束问题：
$\left \{ \begin{aligned} & \underset{w,b}{min} \underset{\lambda_i}{max} \quad L(w,b,\lambda) \\ & s.t. \quad \lambda_i \geq 0 \end{aligned} \right.$

根据对偶关系，上面的无约束的最小最大原始问题，可以转化为它的对偶问题，即最大最小问题：
$\left \{ \begin{aligned} & \underset{\lambda_i}{max} \underset{w,b}{min} \quad L(w,b,\lambda_i) \\ & s.t. \quad \lambda_i \geq 0 \end{aligned} \right.$
（1）先求 $\underset{w,b}{min} L(w,b, \lambda)$
$\lambda_i)$ 分别对w,b进行求导，可以得到：
$\sum_{i=1}^N \lambda_i y_i x_i$
$\sum_{i=1}^N \lambda_i y_i = 0$

代入拉格朗日函数 $\lambda)$ 中可得：

$\underset{w,b}{min} L(w,b,\lambda) = -\frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \lambda_i \lambda_j y_i y_j (x_i \cdot x_j) + \sum_{i=1}^N \lambda_i$

(2) 求 $\underset{\lambda_i}{max} \underset{w,b}{min} \quad L(w,b,\lambda)$
$\begin{aligned} \underset{\lambda_i}{max} \underset{w,b}{min} L(w,b,\lambda) &= \left \{ \begin{aligned} \underset{\lambda_i}{max} &\quad -\frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \lambda_i \lambda_j y_i y_j (x_i \cdot x_j) + \sum_{i=1}^N \lambda_i \\ s.t. &\quad \sum_{i=1}^{N} \lambda_i y_i = 0 \\ &\quad \lambda_i \geq 0, i = 1,2,...,N \end{aligned} \right. \end{aligned}$

由求极大值转化为求极小值：
则最终原问题的对偶问题可表达为：
$\begin{aligned} \underset{\lambda_i}{max} \underset{w,b}{min} L(w,b,\lambda) &= \left \{ \begin{aligned} \underset{\lambda_i}{min} &\quad \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \lambda_i \lambda_j y_i y_j (x_i \cdot x_j) - \sum_{i=1}^N \lambda_i \\ s.t. & \quad \sum_{i=1}^{N} \lambda_i y_i = 0 \\ &\quad \lambda_i \geq 0, i = 1,2,...,N \end{aligned} \right. \end{aligned}$