矩阵的迹与矩阵微商

最新推荐文章于 2022-11-23 20:14:57 发布

江景页

最新推荐文章于 2022-11-23 20:14:57 发布

阅读量3.7k

点赞数 6

文章标签：多元统计分析

本文链接：https://blog.csdn.net/jingye333/article/details/108876626

版权

矩阵的迹与矩阵微商

最近学习多元统计分析，使用的教材是《应用多元统计分析》（高惠璇）。在做第二章作业时遇到一些困难，但在附录中找到了部分适用结论，现搬运如下，并对部分关于迹的结论尝试证明。

1.矩阵的迹

定义：设 $A$ 为 $p$ 阶方阵，则它的对角线元素之和称为 $A$ 的迹(trace)，记作 ${\rm tr}(A)$ ，即
${\rm tr}(A)=a_{11}+\cdots+a_{pp}.$
性质1：若 $\lambda_1,\cdots,\lambda _p$ 为 $A$ 的特征值，则 ${\rm tr}(A)=\lambda_1+\lambda_2+\cdots+\lambda_p$ 。

矩阵 $A$ 的特征多项式为 $f(\lambda)=|\lambda I-A|$ ，其中必定包含以下一项： $(\lambda -a_{11})(\lambda -a_{22})\cdots(\lambda -a_{pp})$ ，且由行列式的定义，与这一项不同的项至少包含一个 $a_{ij})$ ，从而不能够包含 $(\lambda -a_{ii})$ 与 $(\lambda -a_{jj})$ ，那么至多只有 $\lambda^{n-2}$ 的次数。

因此，我们得到 $\lambda^{n-1}$ 项之前的系数一定是 $-(a_{11}+\cdots+a_{pp})$ 。又因为
$|\lambda I-A|=(\lambda-\lambda_1)\cdots(\lambda -\lambda_n),$
所以 $\lambda^{n-1}$ 项前的系数一定是 $-(\lambda_1+\cdots+\lambda_n)$ ，所以有
$a_{11}+a_{22}+\cdots+a_{pp}={\rm tr}(A)=\lambda_1+\lambda_2+\cdots+\lambda_n.$

性质2：对于 $n$ 阶方阵 $A, B$ ， ${\rm tr}(AB)={\rm tr}(BA)$ 。

假设 $A=(a_{ij}),B=(b_{ij})$ ，则
${\rm tr}(AB)=\sum_{k=1}^n (AB)_{kk}=\sum_{k=1}^n\left(\sum_{i=1}^n a_{ki}b_{ik} \right),\\ {\rm tr}(BA)=\sum_{k=1}^n (BA)_{kk}=\sum_{k=1}^n \left(\sum_{i=1}^n b_{ki}a_{ik} \right)=\sum_{i=1}^n \left(\sum_{k=1}^n a_{ik}b_{ki} \right).$
对比两式就得到结果。

性质3： ${\rm tr}(A)={\rm tr}(A')$ 。

性质4： ${\rm tr}(A+B)={\rm tr}(A)+{\rm tr}(B)$ 。

性质5： ${\rm tr}(\sum_{\alpha=1}^k A_\alpha)=\sum_{\alpha=1}^n {\rm tr}(A_\alpha)$ 。

以上三条性质是显然的。

性质6：若 $A$ 为投影矩阵，则 ${\rm tr}(A)={\rm rank}(A)$ ，投影矩阵指对称的幂等矩阵。

需要用到的准备知识是，对称矩阵必定可以正交对角化，幂等矩阵的特征值为 $0$ 或 $1$ 。

由于 $A$ 是对称矩阵，所以存在一个正交矩阵 $\Gamma$ 和对角矩阵 $V={\rm diag}(\lambda_1,\cdots,\lambda_n)$ ，使得
$A=\Gamma'V\Gamma,{\rm tr}(A)={\rm tr}(\Gamma'V\Gamma)={\rm tr}(V)=\sum_{i=1}^n \lambda_i.$
又因为幂等矩阵的特征值只能为0或1，所以 ${\rm tr}(A)$ 等于特征值中1的个数，即矩阵 $A$ 的秩。

2.矩阵微商

分为以下几种情况。

1.自变量是一元变量 $x$

如果 $y=(y_1,\cdots,y_p)'$ 是关于 $x$ 的向量函数，则
$\frac {{\rm d}y}{{\rm d}x}=\left( \frac{{\rm d}y_1}{{\rm d}x}, \frac{{\rm d}y_2}{{\rm d}x},\cdots, \frac{{\rm d}y_p}{{\rm d}x} \right)'.$
也就是说， $p$ 维向量 $y$ 对变量 $x$ 的导数仍然是 $p$ 维向量，称为导数向量。

如果 $Y = F (x)$ 是 $x$ 的矩阵函数， $Y=(y_{ij})$ 是 $p\times q$ 矩阵，则
$\frac{{\rm d}Y}{{\rm d}x}=\left(\frac{{\rm d}y_{ij}}{{\rm d}x}\right)_{p\times q}.$
也就是说， $p\times q$ 矩阵 $Y$ 对变量 $x$ 的导数仍然是 $p\times q$ 矩阵，称为导数矩阵。

2.自变量是 $p$ 维向量 $x=(x_1,\cdots,x_p)'$

如果 $y = f (x)$ 是 $x$ 的一元函数，令其他为常数， $x_i$ 为常数求导可以求得 $y$ 对 $x_i$ 的偏导数，则
$\frac{\partial f}{\partial x}=\left( \frac{\partial f}{\partial x_1},\cdots ,\frac{\partial f}{\partial x_p} \right)'.$
也就是说，一元函数 $f$ 对向量 $x$ 的导数是 $p$ 为向量，称为偏导数向量。

如果 $y=(y_1,\cdots,y_q)'$ 是向量 $x$ 的 $q$ 维向量函数，即 $y_i=f_i(x)$ ，则
$\frac{\partial y}{\partial x}=\left( \frac{\partial y_i}{\partial x_j} \right)_{p\times q}= \left[\begin{matrix} \frac{\partial y_1}{\partial x_1}&\cdots&\frac{\partial y_q}{\partial x_1}\\ \vdots&&\vdots\\ \frac{\partial y_1}{\partial x_p}&\cdots&\frac{\partial y_q}{\partial x_p} \end{matrix}\right].$
也就是说， $q$ 维向量 $y$ 对 $p$ 维向量 $x$ 的导数是 $p\times q$ 矩阵，称为偏导数矩阵。特别当 $p = q$ 时，该矩阵的行列式称为Jacobian行列式。

如果 $Y$ 是 $n$ 阶方阵，即 $Y=(y_{ij})_{n\times n}$ ，则
$\frac{\partial Y}{\partial x}=\left[\begin{matrix} \frac{\partial y_{11}}{\partial x_1}&\frac{\partial y_{12}}{\partial x_2}&\cdots&\frac{\partial y_{1n}}{\partial x_n}\\ \frac{\partial y_{21}}{\partial x_1}&\frac{\partial y_{22}}{\partial x_2}&\cdots&\frac{\partial y_{2n}}{\partial x_n}\\ \vdots&\vdots&&\vdots\\ \frac{\partial y_{n1}}{\partial x_1}&\frac{\partial y_{n2}}{\partial x_2}&\cdots&\frac{\partial y_{nn}}{\partial x_n} \end{matrix}\right].$
也就是说， $n$ 阶方阵 $Y$ 对 $n$ 维矩阵 $x$ 的导数是 $n$ 阶方阵。

自变量是矩阵 $X$

如果 $y = f (X)$ 是 $X$ 的一元函数，则
$\frac{\partial f}{\partial X}=\left[ \frac{\partial f}{\partial X_{ij}} \right].$
也就是说，标量 $y$ 对矩阵 $X$ 的导数是一个矩阵，称为梯度矩阵。如果联系上矩阵微分，则有
${\rm d}f= \sum_{i=1}^m\sum_{j=1}^n\frac{\partial f}{\partial X_{ij}}{\rm d}X_{ij} ={\rm tr}\left( \frac{\partial f}{\partial X}'{\rm d}X \right)$

常用结论

这里 $\beta,x$ 是（列）向量， $A, B, C$ 是与 $x$ 无关的矩阵。

(1)
$\dfrac{\partial \beta'x}{\partial x}=\beta.$
设 $\beta=(b_1,\cdots,b_n)',x=(x_1,\cdots,x_n)$ ，则 $\beta'x=\sum\limits_{i=1}^nb_ix_i$ ，故
$\frac{\partial \beta'x}{\partial x_i}=b_i,\quad \frac{\partial \beta'x}{\partial x}=(b_1,\cdots,b_n)'=\beta.$
(2)
$\frac{\partial x'x}{\partial x}=2x.$
$x'x=\sum_{i=1}^n x_i^2$ ，故
$\frac{\partial x'x}{\partial x_i}=2x_i,\quad \frac{\partial x'x}{\partial x}=2(x_1,\cdots,x_n)'=2x.$
(3)
$\frac{\partial x'Ax}{\partial x}=(A+A')x.$
设 $A=(a_{ij})_{n\times n}$ ，则 $x'Ax=\sum\limits_{i=1}^n\sum\limits_{j=1}^n x_ix_ja_{ij}$ ，所以
$\frac{\partial x'Ax}{\partial x_i}=\sum_{k=1}^n x_ka_{ik}+\sum_{k=1}^nx_ka_{ki} =x'a_{i\cdot}+x'a_{\cdot i},$
于是
$\frac{\partial x'Ax}{\partial x}=\Big(x'[(\begin{matrix}a_{1\cdot}&a_{2\cdot}&\cdots&a_{n\cdot}\end{matrix})+(\begin{matrix}a_{\cdot1}&a_{\cdot2}&\cdots&a_{\cdot n}\end{matrix})]\Big)'=\big(x'(A+A')\big)'=(A+A')x.$

(4)当 $A$ 为实对称矩阵时，
$\frac{\partial x'Ax}{\partial A}=xx'.$
由于 $x'Ax=\sum\limits_{i=1}^n\sum\limits_{j=1}^n x_ix_ja_{ij}$ ，所以
$\frac{\partial x'Ax}{\partial a_{ij}}=x_ix_j,$
所以
$\frac{\partial x'Ax}{\partial A}=(x_ix_j)_{n\times n}=xx'.$
(5)当 $A$ 为实对称矩阵时，
$\frac{\partial \ln |A|}{\partial A}=A^{-1}.$