支持向量机 Support Vector Machines (SVM) - 2

飞天大肥猫

已于 2022-04-27 16:29:17 修改

阅读量1.2k

点赞数 1

分类专栏：支持向量机 SVM 文章标签：算法机器学习

于 2022-04-25 13:34:10 首次发布

本文链接：https://blog.csdn.net/qq_44832147/article/details/124402866

版权

支持向量机 SVM 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了凸优化问题的基本概念，包括目标函数和约束条件。通过拉格朗日函数将原问题与约束结合，并讨论了原问题与对偶问题的关系，重点阐述了强弱对偶性和Karush-Kuhn-Tucker (KKT) 条件在解决优化问题中的关键作用。

摘要由CSDN通过智能技术生成

文章目录

- 2.4 凸优化问题、拉格朗日函数、对偶问题、KKT条件

前序文章链接:
SVM-1

2.4 凸优化问题、拉格朗日函数、对偶问题、KKT条件

2.4.1 凸优化问题

$\qquad$ 凸优化问题指的是形如以下的最优化问题：

$\min_{\vec{x}}f(\vec{x}) \\ s.t. \quad g_{i}(\vec{x}) \leq 0, i=1,2,3, \cdots, k \\ \qquad h_{j}(\vec{x})=0,j=1,2,3, \cdots, l$

$\qquad$ 其中，目标函数 $f(\vec{x})$ 和约束函数 $g_{i}(\vec{x})$ 都是 $R^{n}$ 上连续可微的凸函数，约束函数 $h_{j}(\vec{x})$ 是 $R^{n}$ 上的仿射函数。

2.4.2 拉格朗日函数

$\qquad$ 拉格朗日函数通过引入拉格朗日乘子，将目标优化问题与约束条件组合在一起进行计算。以2.4.1中凸优化问题所对应的拉格朗日函数为例：

$L(\vec{x},\vec{\alpha},\vec{\beta}) = f(\vec{x}) + \sum_{i=1}^{k}\alpha_{i}g_{i}(\vec{x})+\sum_{j=1}^{l}\beta_{j}h_{j}(\vec{x})$

$\qquad$ 其中，有自变量 $\vec{x} = (x_{1},x_{2},x_{3}, \cdots ,x_{n})^{T} \in R^{n}$ ， $\vec{\alpha} = (\alpha_{1},\alpha_{2},\alpha_{3}, \cdots ,\alpha_{k})^{T} \in R^{k}$ ， $\vec{\beta} = (\beta_{1},\beta_{2},\beta_{3}, \cdots ,\beta_{l})^{T} \in R^{l}$ ， $\alpha_{i}$ 和 $\beta_{j}$ 是拉格朗日乘子， $\alpha_{i} \geq 0$ 。接下来给出论证，为什么采用拉格朗日函数可以等价于原问题及其约束条件。

$\qquad$ 记：

$\theta_{p}(\vec{x}) = \max_{\vec{\alpha},\vec{\beta}:\alpha_{i} \geq 0}L(\vec{x},\vec{\alpha},\vec{\beta})$

$\qquad$ 其中， $\max_{\vec{\alpha},\vec{\beta}:\alpha_{i} \geq 0}$ 可以理解为对于 $\vec{x}$ 的每一个可取值，在 ${\vec{\alpha},\vec{\beta}:\alpha_{i} \geq 0}$ 可取值范围内所取到的最大值。假定给某个 $\vec{x}$ 。如果该 $\vec{x}$ 违反了原始问题的约束条件，那么就存在某个 $g_i(\vec{x}) > 0$ 或某个 $h_j(\vec{x}) \neq 0$ ，就可令 $\alpha_{i} \rightarrow +\infty $ 或 $\beta_{j}h_{j}(\vec{x}) \rightarrow +\infty $ 并使其余各 $\alpha_{i}, \beta_{j}$ 均取 0，得到：

$\theta_{p}(\vec{x}) = \max_{\vec{\alpha},\vec{\beta}:\alpha_{i} \geq 0}L(\vec{x},\vec{\alpha},\vec{\beta}) = \max_{\vec{\alpha},\vec{\beta}:\alpha_{i} \geq 0} \Big [f(\vec{x}) + \sum_{i=1}^{k}\alpha_{i}g_{i}(\vec{x})+\sum_{j=1}^{l}\beta_{j}h_{j}(\vec{x}) \Big] = +\infty$

$\qquad$ 相反，如果 $\vec{x}$ 满足所有的约束条件，则可以令 $\alpha_{i} = 0, \beta_{j}$ 取任意值，使得：

$\theta_{p}(\vec{x}) = \max_{\vec{\alpha},\vec{\beta}:\alpha_{i} \geq 0}L(\vec{x},\vec{\alpha},\vec{\beta}) = \begin{cases} f(\vec{x}), &所有满足原始问题约束条件的\vec{x} \\ \\ +\infty, &others \end{cases}$

$\qquad$ 此外，也可以考虑采用梯度的思想对拉格朗日函数进行理解，但在此不做赘述。

$\qquad$ 综上，有：

$\min_{\vec{x}}\theta_{p}(\vec{x}) = \min_{\vec{x}}f(\vec{x}) = \min_{\vec{x}}\max_{\vec{\alpha},{\vec{\beta}:\alpha_{i} \geq 0}}L(\vec{x},\vec{\alpha},\vec{\beta})$
$\qquad$ 所以，求2.4.1的原问题即是求解拉格朗日函数的极小极大问题，对拉格朗日乘子求拉格朗日函数的极大值在整个计算过程中起到了过滤不满足约束的参数的作用。

2.4.3 原问题与对偶问题、强弱对偶关系

$\qquad$ 当原问题是一个极小极大问题时，其对偶问题为一个极大极小问题。

$\qquad$ 假设原始问题为 $\min_{\vec{x}}\max_{\vec{\alpha},\vec{\beta}}L(\vec{x},\vec{\alpha},\vec{\beta})$ ，最优值为 $p^{*}$ ，对偶问题为 $\max_{\vec{\alpha},\vec{\beta}}\min_{\vec{x}}L(\vec{x},\vec{\alpha},\vec{\beta})$ 最优值为 $d^{*}$ ，那么，有：

$p^{*}=\min_{\vec{x}}\max_{\vec{\alpha},\vec{\beta}}L(\vec{x},\vec{\alpha},\vec{\beta}) \\ d^{*}=\max_{\vec{\alpha},\vec{\beta}}\min_{\vec{x}}L(\vec{x},\vec{\alpha},\vec{\beta})$

$\qquad$ 对于函数 $L(\vec{x},\vec{\alpha},\vec{\beta})$ ，有:

$\min_{\vec{x}}L(\vec{x},\vec{\alpha},\vec{\beta}) \leq L(\vec{x},\vec{\alpha},\vec{\beta}) \\ L(\vec{x},\vec{\alpha},\vec{\beta}) \leq \max_{\vec{\alpha},\vec{\beta}}L(\vec{x},\vec{\alpha},\vec{\beta}) \\ \theta_{d}(\vec{\alpha},\vec{\beta}) = \min_{\vec{x}}L(\vec{x},\vec{\alpha},\vec{\beta}) \leq L(\vec{x},\vec{\alpha},\vec{\beta}) \leq \max_{\vec{\alpha},\vec{\beta}}L(\vec{x},\vec{\alpha},\vec{\beta}) = \theta_{p}(\vec{x})$

$\qquad$ 则：
$d^{*} = \max_{\vec{\alpha},\vec{\beta}}{\theta_{d}(\vec{\alpha},\vec{\beta})} \leq L(\vec{x},\vec{\alpha},\vec{\beta}) \leq \min_{\vec{x}}{\theta_{p}(\vec{x})} = p^{*}$
$\qquad$ 即得：
$d^{*} \leq p^{*}$

$\qquad$ 当上式不严格取等号时表明原问题与对偶问题存在弱对偶关系，上式取等号时为强队偶关系，取等号的充分条件为：在凸优化问题中存在 $x$ ，使得对所有的 $i$ 严格满足不等式约束 $g_{i}(x)$ 。这一条件被称为Slater条件。Slater条件在一定程度上指出了与对偶问题有同解的凸优化问题所对应的凸集的几何形式，不作赘述。

2.4.4 Karush-Kuhn-Tucker(KKT)条件

$\qquad$ 根据上文，我们有原凸优化问题：
$\min_{\vec{x}}f(\vec{x}) \\ s.t. \quad g_{i}(\vec{x}) \leq 0, i=1,2,3, \cdots, k \\ \qquad h_{j}(\vec{x})=0,j=1,2,3, \cdots, l$

$\qquad$ 然后通过拉格朗日函数得到了一对对偶问题：
$L(\vec{x},\vec{\alpha},\vec{\beta}) = f(\vec{x}) + \sum_{i=1}^{k}\alpha_{i}g_{i}(\vec{x})+\sum_{j=1}^{l}\beta_{j}h_{j}(\vec{x}) \\ Primal \quad problem: \quad \min_{\vec{x}}{\theta_{p}(\vec{x})} = \min_{\vec{x}}\max_{\vec{\alpha},\vec{\beta}}L(\vec{x},\vec{\alpha},\vec{\beta}) \\ Dual \quad problem: \quad \max_{\vec{\alpha},\vec{\beta}}{\theta_{d}(\vec{\alpha},\vec{\beta})} = \max_{\vec{\alpha},\vec{\beta}}\min_{\vec{x}}L(\vec{x},\vec{\alpha},\vec{\beta})$

$\qquad$ 当一对对偶问题满足Slater条件存在强对偶关系时，可以得到：
$p^{*} = {\theta_{p}(\vec{x}^{*})} = \min_{\vec{x}}{\theta_{p}(\vec{x})} = d^{*} = {\theta_{d}(\vec{\alpha}^{*},\vec{\beta}^{*})} = \max_{\vec{\alpha},\vec{\beta}}{\theta_{d}(\vec{\alpha},\vec{\beta})}$
$\qquad$ 其中， $\vec{x}^{*}, \vec{\alpha}^{*}, \vec{\beta}^{*}$ 分别是取到原始问题和对偶问题最优值时的解。

$\qquad$ 那么，在得到强对偶关系的条件下，将原问题转化为较容易求解的对偶问题，求出对偶问题的最优值 $d^{*}$ 和最优解 ${\vec{\alpha}^{*},\vec{\beta}^{*}}$ 后，可以通过Karush-Kuhn-Tucker(KKT)条件转而求出原问题的最优解 $\vec{x}^{*}$ 。KKT条件是用于证明 $\vec{x}^{*}$ 、 ${\vec{\alpha}^{*},\vec{\beta}^{*}}$ 分别是原始问题与对偶问题的解的充分必要条件。

$\qquad$ KKT条件：
$\begin{cases} \nabla_{\vec{x}}L(\vec{x}^{*},\vec{\alpha}^{*},\vec{\beta}^{*}) = 0 & &(1) \\ g_{i}(\vec{x}^{*}) \leq 0 ,& i = 1,2,3, \cdots ,k &(2) \\ h_{j}(\vec{x}^{*}) = 0 ,& j = 1,2,3, \cdots ,l &(3) \\ \alpha_{i}^{*} \geq 0 ,& i = 1,2,3, \cdots ,k &(4) \\ \alpha_{i}^{*}g_{i}(\vec{x}^{*}) = 0 ,& i = 1,2,3, \cdots ,k &(5) \end{cases}$

$p^{*} = \theta_{p}(\vec{x}^{*}) = d^{*} = \theta_{d}(\vec{\alpha}^{*},\vec{\beta}^{*}) = L(\vec{x}^{*},\vec{\alpha}^{*},\vec{\beta}^{*})\iff \begin{cases} \nabla_{\vec{x}}L(\vec{x}^{*},\vec{\alpha}^{*},\vec{\beta}^{*}) = 0 & \\ g_{i}(\vec{x}^{*}) \leq 0 ,& i = 1,2,3, \cdots ,k \\ h_{j}(\vec{x}^{*}) = 0 ,& j = 1,2,3, \cdots ,l \\ \alpha_{i}^{*} \geq 0 ,& i = 1,2,3, \cdots ,k \\ \alpha_{i}^{*}g_{i}(\vec{x}^{*}) = 0 ,& i = 1,2,3, \cdots ,k \end{cases}$

$\qquad$ 下面证明充分性：

$\qquad$ 由于 $d^{*} = p^{*}$ ，假设 $\vec{x}^{*}$ 、 ${\vec{\alpha}^{*},\vec{\beta}^{*}}$ 分别是原始问题与对偶问题的解，那么有：

$\qquad$ 对于满足KKT条件的 $\vec{x}^{*}$ 、 ${\vec{\alpha}^{*},\vec{\beta}^{*}}$ 可以使得上述的不等式都取到等号，所以充分性得证。

$\qquad$ 下面证明必要性：

$\begin{aligned} d^{*} & = \max_{\vec{\alpha},\vec{\beta}}\theta_{d}(\vec{\alpha},\vec{\beta}) &(a) \\ & = \theta_{d}(\vec{\alpha}^{*},\vec{\beta}^{*}) &(b) \\ & = \min_{\vec{x}}L(\vec{x}, \vec{\alpha}^{*},\vec{\beta}^{*}) &(c) \\ & \leq L(\vec{x}^{*},\vec{\alpha}^{*},\vec{\beta}^{*}) &(d) \\ & = f(\vec{x}^{*}) + \sum_{i=1}^{k}\alpha_{i}^{*}g_{i}(\vec{x}^{*}) + \sum_{j=1}^{l}\beta_{j}^{*}h_{j}(\vec{x}^{*}) &(e) \\ & \leq f(\vec{x}^{*}) &(f) \\ & = p^{*} \end{aligned}$
$\qquad$ $\vec{x}^{*}, \vec{\alpha}^{*}, \vec{\beta}^{*}$ 分别是取到原始问题和对偶问题最优值时的解，那么KKT条件中的(2)(3)(4)天然满足。要使得强对偶关系成立，即 $d^{*} = p^{*}$ ， $(d)$ 和 $(f)$ 中的不等号应该严格取等号。下面给出KKT条件中(1)(5)的推导。

$\qquad$ 对不等式关系 $(c)$ 和 $(d)$ 取等，有：

$\begin{aligned} & \because \min_{\vec{x}}L(\vec{x},\vec{\alpha}^{*},\vec{\beta}^{*}) = L(\vec{x}^{*},\vec{\alpha}^{*},\vec{\beta}^{*}) \\ & \therefore \nabla_{\vec{x}}L(\vec{x}^{*},\vec{\alpha}^{*},\vec{\beta}^{*}) = 0 &(1) \end{aligned}$

$\qquad$ 对不等式关系 $(e)$ 和 $(f)$ 取等，有：

$\begin{aligned} & \because h_{j}(\vec{x}^{*}) = 0 \\ & \therefore \sum_{j=1}^{l}\beta_{j}^{*}h_{j}(\vec{x}^{*}) = 0 \\ & \therefore \sum_{i=1}^{k}\alpha_{i}^{*}g_{i}(\vec{x}^{*}) = 0 \\ & \because \alpha_{i}^{*} \geq 0 , \quad g_{i}(\vec{x}^{*}) \leq 0 & i = 1,2,3, \cdots ,k \\ & \therefore \alpha_{i}^{*}g_{i}(\vec{x}^{*}) = 0 & i = 1,2,3, \cdots ,k &&(5) \end{aligned}$