矩阵求导与实例

最新推荐文章于 2024-09-18 09:47:57 发布

Young_Gy

最新推荐文章于 2024-09-18 09:47:57 发布

阅读量1.2w

点赞数 16

文章标签：矩阵

本文链接：https://blog.csdn.net/young_gy/article/details/50008953

版权

缘由
布局
求导的类别
从简单的例子说起
实例
参考资料

缘由

机器学习的很多算法表示中都采用了矩阵的形式，对算法的描述分析中就涉及到了对向量、对矩阵的求导。
比如SVM、linear regression的推导等。

布局

矩阵求导有两种布局：

分子布局（numerator layout）
分母布局（denominator layout）

下面用向量 $\mathrm{\mathbf{y}}$ 对标量 $x$ 求导简单说明这两种布局的区别。
我们假定所有的向量都是列向量。

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\mathbf{y}=\begin{bmatrix}y_{1}\\ y_{2}\\ \vdots\\ y_{m} \end{bmatrix}$

在分子布局下：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x \partial y 2 \partial x ⋮ \partial y m \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial\mathbf{y}}{\partial x}=\begin{bmatrix}\frac{\partial y_{1}}{\partial x}\\ \frac{\partial y_{2}}{\partial x}\\ \vdots\\ \frac{\partial y_{m}}{\partial x} \end{bmatrix}$

在分母布局下：

\partial y \partial x = [\partial y 1 \partial x \partial y 2 \partial x \dots \partial y m \partial x]

$\frac{\partial\mathbf{y}}{\partial x}=\begin{bmatrix}\frac{\partial y_{1}}{\partial x} & \frac{\partial y_{2}}{\partial x} & \cdots & \frac{\partial y_{m}}{\partial x}\end{bmatrix} %]]>$

在下面的推导中，都将采用分母布局，也就是向量（列）对标量求导的结果都是行向量。（采用这种布局的主要原因是向量对向量的求导就是一个矩阵了）

求导的类别

求导大致分为5类：

向量对标量
标量对向量
向量对向量
矩阵对向量
向量对矩阵

矩阵求导的大致规则如下：
对标量求导结果都要转置，而标量对向量或者矩阵求导的话位置不变。
简单来说，上变下不变。

向量对标量求导：

\partial y \partial x = [\partial y 1 \partial x \partial y 2 \partial x \dots \partial y m \partial x]

$\frac{\partial\mathbf{y}}{\partial x}=\begin{bmatrix}\frac{\partial y_{1}}{\partial x} & \frac{\partial y_{2}}{\partial x} & \cdots & \frac{\partial y_{m}}{\partial x}\end{bmatrix} %]]>$

标量对向量求导：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 1 \partial y \partial x 2 ⋮ \partial y \partial x m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial y}{\partial\mathbf{x}}=\begin{bmatrix}\frac{\partial y}{\partial x_{1}}\\ \frac{\partial y}{\partial x_{2}}\\ \vdots\\ \frac{\partial y}{\partial x_{m}} \end{bmatrix}$

向量对向量求导：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 1 x 2 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\mathbf{x}=\begin{bmatrix}x_{1}\\ x_{2}\\ \vdots\\ x_{n} \end{bmatrix}$

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\mathbf{y}=\begin{bmatrix}y_{1}\\ y_{2}\\ \vdots\\ y_{m} \end{bmatrix}$

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 1 \partial x 2 ⋮ \partial y 1 \partial x n \partial y 2 \partial x 1 \partial y 2 \partial x 2 ⋮ \partial y 2 \partial x n \dots \dots ⋱ \dots \partial y m \partial x 1 \partial y m \partial x 2 ⋮ \partial y m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial\mathbf{y}}{\partial\mathbf{x}}=\begin{bmatrix}\frac{\partial y_{1}}{\partial x_{1}} & \frac{\partial y_{2}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{1}}\\ \frac{\partial y_{1}}{\partial x_{2}} & \frac{\partial y_{2}}{\partial x_{2}} & \cdots & \frac{\partial y_{m}}{\partial x_{2}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_{1}}{\partial x_{n}} & \frac{\partial y_{2}}{\partial x_{n}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}} \end{bmatrix} %]]>$

矩阵对标量求导：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 11 \partial x \partial y 12 \partial x ⋮ \partial y 1 n \partial x \partial y 21 \partial x \partial y 22 \partial x ⋮ \partial y 2 n \partial x \dots \dots ⋱ \dots \partial y m 1 \partial x \partial y m 2 \partial x ⋮ \partial y m n \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial\mathbf{y}}{\partial x}=\begin{bmatrix}\frac{\partial y_{11}}{\partial x} & \frac{\partial y_{21}}{\partial x} & \cdots & \frac{\partial y_{m1}}{\partial x}\\ \frac{\partial y_{12}}{\partial x} & \frac{\partial y_{22}}{\partial x} & \cdots & \frac{\partial y_{m2}}{\partial x}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_{1n}}{\partial x} & \frac{\partial y_{2n}}{\partial x} & \cdots & \frac{\partial y_{mn}}{\partial x} \end{bmatrix} %]]>$
标量对矩阵求导：

\partial y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 11 \partial y \partial x 21 ⋮ \partial y \partial x p 1 \partial y \partial x 12 \partial y \partial x 22 ⋮ \partial y \partial x p 2 \dots \dots ⋱ \dots \partial y \partial x 1 q \partial y \partial x 2 q ⋮ \partial y \partial x p q ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial y}{\partial\mathbf{X}}=\begin{bmatrix}\frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}} & \cdots & \frac{\partial y}{\partial x_{1q}}\\ \frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{2q}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y}{\partial x_{p1}} & \frac{\partial y}{\partial x_{p2}} & \cdots & \frac{\partial y}{\partial x_{pq}} \end{bmatrix} %]]>$

从简单的例子说起

例子1：

y = a T x

$\mathbb{y} = \mathbb{a}^\mathrm{T}\mathbb{x}$

其中， $\mathbb{y} \in \mathbb{R}, \mathbb{a} \in \mathbb{R}^{n \times 1}, \mathbb{x} \in \mathbb{R}^{n \times 1}$ 。

属于标量对向量求导，所以有：

\partial y \partial x = a

$\frac{\partial y}{\partial x} = a$

例子2：

y = A x

$\mathbb{y} = \mathrm{A}\mathrm{x}$

其中， $\mathbb{y} \in \mathbb{R}^{m \times 1}, \mathrm{A} \in \mathbb{R}^{m \times n}, \mathbb{x} \in \mathbb{R}^{n \times 1}$ 。

属于向量对向量求导，所以有：

\partial y \partial x = A T

$\frac{\partial y}{\partial x} = \mathrm{A}^\mathrm{T}$

例子3：

y = A u (x)

$\mathbb{y} = \mathrm{A}\mathrm{u}(x)$

其中， $\mathbb{y} \in \mathbb{R}^{m \times 1}, \mathrm{A} \in \mathbb{R}^{m \times n}, \mathrm{u} \in \mathbb{R}^{n \times 1},\mathbb{x} \in \mathbb{R}^{p \times 1}$ 。

属于向量对向量的求导，所以有：

\partial y \partial x = \partial u \partial x A T

$\frac{\partial y}{\partial x} = \frac{\partial u}{\partial x} \mathrm{A}^{\mathrm{T}}$

例子4：

y = a (x) u (x)

$\mathbb{y} = \mathrm{a(x)}\mathrm{u}(x)$

其中， $\mathbb{y} \in \mathbb{R}^{m \times 1}, \mathrm{a} \in \mathbb{R}, \mathrm{u} \in \mathbb{R}^{m \times 1},\mathbb{x} \in \mathbb{R}^{n \times 1}$ 。

属于向量对向量的求导，所以有：

\partial y \partial x = \partial u \partial x a + \partial a \partial x u T

$\frac{\partial y}{\partial x} = \frac{\partial u}{\partial x} \mathrm{a}+\frac{\partial a}{\partial x} \mathrm{u}^{\mathrm{T}}$

假如已知：

a (x) u (x) = B x = C x

$\begin{split} a(x)&=Bx\\ u(x)&=Cx \end{split}$

其中， $\mathrm{B} \in \mathbb{R}^{1 \times n}, \mathrm{C} \in \mathbb{R}^{m \times n}$
那么，

\partial y \partial x = C T a + B T u T

$\frac{\partial y}{\partial x} =\mathrm{C}^{\mathrm{T}}\mathrm{a}+\mathrm{B}^{\mathrm{T}}\mathrm{u}^{\mathrm{T}}$

例子5：

f = x T A y (x)

$\mathrm{f} = \mathbf{x}^{\mathrm{T}}\mathbf{Ay(x)}$
那么，

\partial f \partial x = A y + \partial y \partial x A T x

$\frac{\partial f}{\partial x} =Ay+\frac{\partial y}{\partial x} A^T x$

其中， $\mathbf{x}\in\mathbb{R}^{m\times1},\mathbf{y}\in\mathbb{R}^{n\times1},\mathbf{A}\in\mathbb{R}^{m\times n},\mathbf{f}\in\mathbb{R}$ 。

上面的式子，当 $\mathbb{y(x)}=x$ 时，也就是 $m=n$ 时。

f \partial f \partial x = x T A x = (A + A T) x

$\begin{split} &\mathrm{f}& = \mathbf{x}^{\mathrm{T}}\mathrm{A}\mathbf{x}\\ &\frac{\partial f}{\partial x} &= (A+A^T)x \end{split}$

例子6：

f = a T x x T b, a, b, x \in R m \times 1

$\mathbb{f} = \mathbf{a}^{\mbox{T}}\mathbf{xx}^{\mbox{T}}\mathbf{b} ,\mathbf{a,b,x}\in\mathbb{R}^{m\times1}$

则

\partial f \partial x = a (x T b) + b (a T x) = (a b T + b a T) x

$\frac{\partial f}{\partial x} = a(x^Tb) + b(a^Tx) = (ab^T+ba^T)x$

实例

SVM的对偶形式转换

SVM的原形式（primary form）是：

min w, b s . t . 1 2 w T w y n (w T x n + b) \geq 1

$\begin{split} &\min_{w,b} \quad &\frac{1}{2} w^Tw\\ &s.t. & y_n(w^Tx_n+b) \ge1 \end{split}$

SVM的对偶形式（dual form）是：

min w, b max α \geq 0 max α \geq 0 min w, b 1 2 w T w + \sum n = 1 N α n [1 - y n (w T x n + b)] 1 2 w T w + \sum n = 1 N α n [1 - y n (w T x n + b)]

$\begin{split} &\min_{w,b} \max_{\alpha\ge 0} & \frac{1}{2} w^Tw + \sum_{n=1}^N \alpha_n [1- y_n(w^Tx_n+b)] \\ &\max_{\alpha\ge 0} \min_{w,b} &\frac{1}{2} w^Tw + \sum_{n=1}^N \alpha_n [1- y_n(w^Tx_n+b)]\end{split}$

上升分别对 $w,b$ 求导后，得到

w \sum n = 1 N α n y n = \sum n = 1 N α n y n x n = 0

$\begin{split} w &= \sum_{n=1}^N \alpha_n y_n x_n\\ \sum_{n=1}^N \alpha_n y_n &= 0 \end{split}$

代入原式中，有

min α 1 2 \sum n = 1 N s . t . \sum n = 1 N α n y n α n \sum m = 1 N α n α m y n y m x m T x n - \sum n = 1 N α n = 0 \geq 0

$\begin{split}\min_\alpha \frac{1}{2}\sum_{n=1}^N&\sum_{m=1}^N \alpha_n \alpha_m y_n y_m {x_m}^T x_n - \sum_{n=1}^N \alpha_n \\ s.t. \quad \sum_{n=1}^N \alpha_n y_n &= 0 \\ \alpha_n &\ge 0 \end{split}$

这个对偶问题，可以用相应的quadprog包求解。其中， $\sum_{n=1}^N\sum_{m=1}^N \alpha_n \alpha_m y_n y_m {x_m}^T x_n$ 是矩阵 $\mathbb{\alpha}^T \mathrm{Q}\mathbb{\alpha}$ 。 $y_n y_m {x_m}^T x_n$ 是矩阵中m行n列的元素。这个元素再乘以 $\alpha_n \alpha_m$ 。
同时，这个也是 $w^Tw$ 的内积。可以理解为把 $w$ 拆开多项，每一项分别做内积然后相加，就像多次项展开公式一样。

Soft-SVM对偶形式转换

SVM的原形式（primary form）是：

min w, b, ε s . t . 1 2 w T w + C \sum n = 1 N ε n y n (w T x n + b) \geq 1 - ε n ε n \geq 0

$\begin{split} &\min_{w,b,\varepsilon} \quad &\frac{1}{2} w^Tw + C \sum_{n=1}^N \varepsilon_n \\ &s.t. & y_n(w^Tx_n+b) \ge1-\varepsilon_n \\ & &\varepsilon_n \ge 0 \end{split}$

对偶形式是：