支持向量机中的拉格朗日函数的矩阵偏导基础

吓一跳你

已于 2022-05-05 16:21:59 修改

阅读量1k

点赞数 2

分类专栏：笔记文章标签：支持向量机梯度求导拉格朗日乘子法向量范数矩阵求导

于 2022-05-02 18:48:22 首次发布

本文链接：https://blog.csdn.net/penguinyao/article/details/124539002

版权

笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

文章目录

前言
一、向量的范数
二、矩阵的求导
三、 $\displaystyle\frac{\partial \|w\|^2}{\partial w}$ 的结果
四、（6.8）式的计算结果
总结

前言

西瓜书中，123页的（6.8）式：
$L(w,b,\alpha)=\displaystyle\frac{1}{2}\|w\|^{2}+ \sum\limits_{i=1}^{m} \alpha_i(1-y_i(w^{T}x_i+b)) \tag{6.8}$
其中 $\alpha=(\alpha_1,\alpha_2,...\alpha_n)$ 。令 $\displaystyle\frac{\partial L}{\partial w}=0$ ， $\displaystyle\frac{\partial L}{\partial b}=0$ ，可得
$\sum\limits_{i=1}^{m} \alpha_iy_ix_i \tag{6.9}$
$\sum\limits_{i=1}^{m} \alpha_iy_i \tag{6.10}$
求解过程需要掌握线性代数中的向量的范数和矩阵论课程中矩阵求导的相关知识，因此对向量的范数和矩阵求导进行相关的说明，再进一步对 $L(w,b,\alpha)$ 求解。

一、向量的范数

向量的范数
若向量 $w=(w_1,w_2,...,w_n)\in \Re^n$ 的范数（长度）定义为
$\|w\|=\sqrt{w_1^2+w_2^2+...+w_n^2}$
因此有
$\|w\|=\sqrt{w_1^2+w_2^2+...+w_n^2}=\sqrt{ww^T}$
即
$w\|^2=w_1^2+w_2^2+...+w_n^2=ww^T$

二、矩阵的求导

例：
假设现有一个二元函数：
$f(x_1,x_2)=3x_1+2x_2$
分别对该函数求偏导，则有
$\displaystyle\frac{\partial f}{\partial x_1}=3$
$\displaystyle\frac{\partial f}{\partial x_2}=2$
那么由多个变量组成的向量，即向量变元可写为
$x=[x_1,x_2]^T$
可以得到对函数 $f$ 进行向量变元 $x$ 的向量求导的结果是
$\displaystyle\frac{\partial f(x)}{\partial x}= \begin{bmatrix} 3 \\ 2 \end{bmatrix}$
这就是向量 $x$ 求导的结果。
二元函数 $f(x_1,x_2)=3x_1+2x_2$ 可写为
$f(x)=A^Tx$
其中 $A=[3,2]^T$
$x=[x_1,x_2]^T$
所以
$\displaystyle\frac{\partial f(x)}{\partial x}=\displaystyle\frac{\partial A^Tx}{\partial x}=A= \begin{bmatrix} 3 \\ 2 \end{bmatrix}$

1. 向量求导的梯度向量形式

一般的情况下，设 $f (x)$ 是一个关于向量变元x的函数，且
$x=[x_1,x_2,...,x_n]^T$
则
$\displaystyle\frac{\partial f(x)}{\partial x}=[\displaystyle\frac{\partial f}{\partial x_1},\displaystyle\frac{\partial f}{\partial x_2},...,\displaystyle\frac{\partial f}{\partial x_n}]^T$
此式也被称为向量求导的梯度向量形式：
$\bigtriangledown_x f(x) =\displaystyle\frac{\partial f(x)}{\partial x}=[\displaystyle\frac{\partial f}{\partial x_1},\displaystyle\frac{\partial f}{\partial x_2},...,\displaystyle\frac{\partial f}{\partial x_n}]^T$
因此，矩阵求导与向量求导类似。

1. 结论1

$\displaystyle\frac{\partial (x^TA)}{\partial x}=\displaystyle\frac{\partial (Ax^T)}{\partial x}=A$
证明：
设 $A=[a_1,a_2,...,a_n]^T$ ，其中 $a_1,a_2,...,a_n$ 为常数，则有
$\displaystyle\frac{\partial (x^TA)}{\partial x}=\displaystyle\frac{\partial (Ax^T)}{\partial x}=A$
证明如下：
$\begin{aligned} \displaystyle\frac{\partial (x^TA)}{\partial x}&=\displaystyle\frac{\partial (Ax^T)}{\partial x}\\ &=\displaystyle\frac{\partial (a_1x_1+a_2x_2+...+a_nx_n)}{\partial x}\\ &= \begin{bmatrix} \displaystyle\frac{\partial (a_1x_1+a_2x_2+...+a_nx_n)}{\partial x_1}\\ \displaystyle\frac{\partial (a_1x_1+a_2x_2+...+a_nx_n)}{\partial x_2} \\ ...\\ \displaystyle\frac{\partial (a_1x_1+a_2x_2+...+a_nx_n)}{\partial x_n} \\ \end{bmatrix} \\ &=[a_1,a_2,...,a_n]^T\\ &=A\\ \end{aligned}$

2. 结论2

$\displaystyle\frac{\partial (x^Tx)}{\partial x}=2x$
证明：
$\begin{aligned} \displaystyle\frac{\partial (x^Tx)}{\partial x}&= \begin{bmatrix} \displaystyle\frac{\partial (x_1^2+x_2^2+...+x_n^2)}{\partial x_1}\\ \displaystyle\frac{\partial (x_1^2+x_2^2+...+x_n^2)}{\partial x_2} \\ ...\\ \displaystyle\frac{\partial (x_1^2+x_2^2+...+x_n^2)}{\partial x_n} \\ \end{bmatrix} \\ &=[2x_1,2x_2,...,2x_n]^T\\ &=2x \end{aligned}$

三、 $\displaystyle\frac{\partial \|w\|^2}{\partial w}$ 的结果

根据一和二的讨论，则有
$\displaystyle\frac{\partial \|w\|^2}{\partial w}=\displaystyle\frac{\partial (ww^T)}{\partial w}= 2w$

四、（6.8）式的计算结果

当
$\displaystyle\frac{\partial L}{\partial w}=0$
则
$\begin{aligned} \displaystyle\frac{\partial L}{\partial w}&=\displaystyle\frac{\partial (\displaystyle\frac{1}{2}\|w\|^{2}+ \sum\limits_{i=1}^{m} \alpha_i(1-y_i(w^{T}x_i+b))) }{\partial w}\\ &=\frac{\partial \displaystyle\frac{1}{2}\|w\|^{2}}{{\partial w}}+\frac{\partial \displaystyle (\sum\limits_{i=1}^{m} \alpha_i)}{{\partial w}}-\frac{\partial \displaystyle (\sum\limits_{i=1}^{m} \alpha_iy_iw^{T}x_i)}{{\partial w}}-\frac{\partial \displaystyle (\sum\limits_{i=1}^{m} \alpha_iy_ib)}{{\partial w}} \end{aligned}$
因为 $\alpha_i,y_i,b$ 与 $w$ 无关，因此
$\displaystyle \frac{\partial \displaystyle (\sum\limits_{i=1}^{m} \alpha_i)}{{\partial w}}=0$
$\displaystyle \frac{\partial \displaystyle (\sum\limits_{i=1}^{m} \alpha_iy_ib)}{{\partial w}}=0$
又因为
$\displaystyle\frac{1}{2}\frac{\partial \|w\|^{2}}{{\partial w}}=w$
所以
$\begin{aligned} \displaystyle\frac{\partial L}{\partial w}&=w-\frac{\partial \displaystyle (\sum\limits_{i=1}^{m} \alpha_iy_iw^{T}x_i)}{{\partial w}}\\ &=w-\sum\limits_{i=1}^{m} \alpha_iy_ix_i\\ &=0 \end{aligned}$
即
$w=\sum\limits_{i=1}^{m} \alpha_iy_ix_i \tag{6.9}$
当 $\displaystyle\frac{\partial L}{\partial b}=0$ 时， $\alpha_i,y_i,x_i,w^T$ 与 $b$ 无关，因此
$\displaystyle\frac{\partial L}{\partial b}=0-\sum\limits_{i=1}^{m} \alpha_iy_i=0$
所以 $\sum\limits_{i=1}^{m} \alpha_iy_i=0 \tag{6.10}$