本文基于《应用多元统计分析》教材整理,适用于备考浙江大学多元统计分析(3学分,课程号06123040),并且跳过其中回归分析的部分。基于不同教材的多元统计侧重点不同,考点也不同,请勿完全参考。整理过程多有疏漏,如果错误,欢迎在评论区指出。
大纲如下:
多元正态分布
多元正态分布基础
参数估计与常用统计量
常用分布
假设检验
归类
判别分析(Discriminatory Analysis)
聚类分析(Cluster Analysis)
降维
主成分分析(Principal Component Analysis)
因子分析(Factor Analysis)
典型相关分析(Canonical Correlation Analysis)
典型计算(另开一篇)
由于是复习笔记,所以内容较为简略。
Part 1:多元正态分布
1-1 多元正态分布基础
样本数据阵的排布,通常是将每一个样本视为一行,\(n\)个样本得到的样本数据阵应当是\(n\times p\)的,\(p\)是所感兴趣的维度。
接下来假设随机向量是\(p\)维的,总体是\(X=(X_1,X_2,\cdots,X_p)\)。随机向量具有如下的基本概念:
联合分布函数:\(p\)元函数\(F\),定义为
\[F(x_1,\cdots,x_p)=\mathbb{P}(X_1\le x_1,\cdots,X_p\le x_p).
\]
联合密度函数:\(p\)元函数\(f\),如果某个联合分布可以表示为
\[F(x_1,\cdots,x_p)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p} f(u_1,\cdots,u_p){\rm d}u_1\cdots{\rm d}u_p.
\]
满足非负性与规范性。
边缘分布:随机向量\(X\)的部分维度\((X_{i_1},\cdots,X_{i_m})\)的分布函数。类似定义边缘密度。
条件分布:将\(X\)分为\(r\)维分量\(X^{(1)}\)与\(p-r\)维分量\(X^{(2)}\),在给定另一个分量的取值时,分量的分布。类似定义条件密度。
特征函数:是\(p\)元函数,定义为
\[\Phi(t)=\mathbb{E}(e^{ {\rm i}t'X}).
\]
类比一元情况下的特征函数。
在边缘分布下可定义分量的独立性:联合分布函数等于边缘分布函数的乘积。相互独立的分量之间,条件分布等于边缘分布。
设\(X=(X_1,\cdots,X_p)\)是\(p\)维随机向量,\(Y=(Y_1,\cdots,Y_q)\)是\(q\)维随机向量。随机向量具有如下常用的数字特征:
均值向量,需要每一个\(X_i\)都有\(\mathbb{E}(X_i)=\mu_i\)存在。
\[\mathbb{E}(X)=\begin{bmatrix}
\mathbb{E}(X_1) \\ \vdots \\ \mathbb{E}(X_p)
\end{bmatrix}=\begin{bmatrix}
\mu_1 \\ \vdots \\ \mu_p
\end{bmatrix}\xlongequal{def}\mu.
\]
自协方差阵,需要每一个\(X_i, X_j\)的协方差\(\mathbb{Cov}(X_i, X_j)\)存在。
\[\mathbb{D}(X)=\mathbb{E}[(X-\mathbb{E}(X))(X-\mathbb{E}(X))']\xlongequal{def}(\sigma_{ij})_{p\times p}, \\
\mathbb{D}(X)=\begin{bmatrix}
\mathbb{Cov}(X_1, X_1) & \mathbb{Cov}(X_1, X_2) & \cdots & \mathbb{Cov}(X_1, X_p) \\
\mathbb{Cov}(X_2, X_1) & \mathbb{Cov}(X_2, X_2) & \cdots & \mathbb{Cov}(X_2, X_p) \\
\vdots & \vdots & \ddots & \vdots \\
\mathbb{Cov}(X_p, X_1) & \mathbb{Cov}(X_p, X_2) & \cdots & \mathbb{Cov}(X_p, X_p)
\end{bmatrix}\xlongequal{def}\Sigma.
\]
互协方差阵,需要每一个\(X_i, Y_j\)的协方差\(\mathbb{Cov}(X_i, Y_j)\)存在。
\[\mathbb{COV}(X, Y)=\begin{bmatrix}
\mathbb{Cov}(X_1, Y_1) & \mathbb{Cov}(X_2, Y_1) & \cdots & \mathbb{Cov}(X_1, Y_q) \\
\mathbb{Cov}(X_2, Y_1) & \mathbb{Cov}(X_2, Y_2) & \cdots & \mathbb{Cov}(X_2, Y_q) \\
\vdots & \vdots & \ddots & \vdots \\
\mathbb{Cov}(X_p, Y_1) & \mathbb{Cov}(X_p, Y_2) & \cdots & \mathbb{Cov}(X_p, Y_q)
\end{bmatrix}_{p\times q}.
\]
相关系数阵,需要自协方差阵存在,即相关系数构成的矩阵。
\[r_{ij}=\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sqrt{\sigma_{jj}}}},R\xlongequal{def}(r_{ij})_{p\times p}.
\]
标准差阵,每一个随机变量的标准差构成的对角阵,极少用到。
\[V^{1/2} ={\rm diag}(\sqrt{\sigma_{11}}, \cdots, \sqrt{\sigma_{pp}}).
\]
有\(\Sigma=V^{1/2}RV^{1/2}\)和\(R=V^{-1/2}\Sigma V^{-1/2}\)。
数字特征的相关性质:
计算性质,有
\[\mathbb{E}(AXB)=A\mathbb{E}(X)B,\\
\mathbb{D}(AX)=A\mathbb{D}(X)A',\\
\mathbb{COV}(AX, BY)=A\mathbb{COV}(X, Y)B'.
\]
\(\Sigma=\mathbb{D}(X)\)是对称非负定的,且当\(X\)线性无关时是正定的。对称非负定矩阵具有平方根,即\(\exists L\)使得\(\Sigma=L^2\)。
\[\Sigma=U\Lambda U',\quad L=U\Lambda^{1/2}U'.
\]
如果\(\Sigma\)追加是正定的,则有Cholesky分解:\(\Sigma=LL'\),这里\(L\)是下三角矩阵。
多元正态分布的定义方式:
独立标准正态分布的线性组合:设\(U=(U_1,\cdots,U_q)'\),每一个\(U_q\)独立同分布服从\(N(0, 1)\)。任意\(p\times q\)矩阵\(A\)和\(p\)维常数列向量\(\mu\)构造的随机向量:
\[AU+\mu\xlongequal{def}X\sim N_p(\mu, AA').
\]
特征函数法(几乎不用):对于\(\Sigma\ge 0\)和常数向量\(\mu\),多元正态分布随机向量\(X\)具有如下的特征函数:
\[\Phi_X(t)=\exp\left[{\rm i}t'\mu-\frac{1}{2}t'\Sigma t \right],\\
X\sim N_p(\mu,\Sigma).
\]
分量的线性组合(可理解为一种性质,用于证否):若\(p\)维随机向量\(X\)的任意线性组合均服从正态分布,则\(X\)服从多元正态分布。
联合密度法:对于\(\Sigma>0\)和常数向量\(\mu\),多元正态分布随机向量\(X\)具有如下的联合密度:
\[f(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac{1}{2}(x-\mu)'\Sigma^{-1}(x-\mu) \right],\\
X\sim N_p(\mu,\Sigma).
\]
这给出非退化正态随机向量的定义方式。
多元正态分布的常用性质:
如果\(X\sim N_p(\mu,\Sigma)\),常数阵\(C_{q\times p}\),则
\[CX\sim N_q(C\mu, C\Sigma C').
\]
如果\(X\sim N_p(\mu,\Sigma\),将\(X\)分成\(r\)维的\(X^{(1)}\)与\(p-r\)维的\(X^{(2)}\),则
\[X^{(1)}\sim N_r(\mu^{(1)}, \Sigma_{11}), \\
X^{(2)}\sim N_{p-r}(\mu^{(2)}, \Sigma_{22}), \\
\mathbb{COV}(X^{(1)}, X^{(2)})=\Sigma_{12}=\Sigma_{21}'.
\]
多元正态分布分量间不相关性与独立性等价。
独立性投影:\(X^{(1)}\)在\(X^{(2)}\)方向上的投影是
\[\Sigma_{12}\Sigma_{22}^{-1}X^{(2)},
\]
这相当于\(X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\)与\(X^{(2)}\)不相关(即独立)。由此,可以作可逆线性变换如下:
\[B=\begin{bmatrix}
I_r & -\Sigma_{12}\Sigma_{22}^{-1} \\
O & I_{p-r}
\end{bmatrix},\\
Z=BX=\begin{bmatrix}
X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \\ X^{(2)}
\end{bmatrix}\xlongequal{def}\begin{bmatrix}
Z^{(1)} \\ Z^{(2)}
\end{bmatrix}.
\]
由此,再结合随机向量函数密度公式,可以计算得到
\[(X^{(1)}|X^{(2)})\sim N_r(\mu_{1\cdot 2}, \Sigma_{11\cdot2}),\\
\mu=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(X^{(2)}-\mu^{(2)}),\\
\Sigma_{11\cdot 2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}.
\]
1-2 参数估计与常用统计量
以下假设\(X\)是\(n\times p\)数据矩阵,第\(i\)行代表第\(i\)个样品的观测值\(X_{(i)}\);\(\boldsymbol{1}_n\)代表\(n\)维纯\(1\)列向量。常用统计量:
样本均值向量\(\bar X\):常用作样本均值的估计。
\[\bar X=\frac{1}{n}\sum_{i=1}^nX_{(i)}=\frac{1}{n}X'\boldsymbol{1}_n.
\]
样本离差阵\(A\):类比一元情况下的离差平方和,是一个\(p\times p\)矩阵。
\[A=\sum_{i=1}^n(X_{(i)}-\bar X)(X_{(i)}-\bar X)'=X'X-\frac{1}{n}\bar X\bar X'=X'(I_n-\frac{1}{n}\boldsymbol{1}_n\boldsymbol{1}'_n)X.
\]
样本协方差阵\(S\):类比一元情况下的样本方差,常用作自协方差矩阵的估计。
\[S=\frac{1}{n-1}A\xlongequal{def}(s_{ij})_{p\times p}.
\]
样本相关阵\(R\):常用作相关阵的估计。
\[R\xlongequal{def}(r_{ij})_{p\times p},\quad r_{ij}=\frac{s_{ij}}{\sqrt{s_{ii}}\sqrt{s_{jj}}}.
\]
在实际应用中,要求相关阵,一般先对数据矩阵进行标准化,再求协方差阵即可。标准化指的是扣掉均值、除以标准差。
正态总体\(N_p(\mu,\Sigma)\)中,常用统计量的性质:
\(\bar X\sim N_p(\mu,\Sigma/n)\)。
设\(Z_1,\cdots,Z_{n-1}\)独立同分布于\(N_p(0,\Sigma)\),则
\[A\xlongequal{d}\sum_{i=1}^{n-1}Z_iZ_i'.
\]
\(\bar{X}\)和\(A\)相互独立。
\(\mathbb{P}(A>0)=1\Leftrightarrow n>p\)。
前三点通过构造正交矩阵\(\Gamma\)(最后一行为\(\frac{1}{\sqrt{n}}\))来证明,第四点令\(B=(Z_1,\cdots,Z_{n-1})\),有\(A=BB'\),由\(r(A)=r(B)\)只需证明\(B\)的前\(p\)列线性相关概率为0即可。
多元正态分布参数\((\mu,\Sigma)\)的极大似然估计:
如果\(\mu,\Sigma\)均未知,则
\[\hat{\mu}=\bar{X}, \hat{\Sigma}=\frac{1}{n}A.
\]
注意极大似然估计不是样本协方差阵,经过无偏调整后才是样本协方差阵。
如果\(\mu\)已知,则
\[\hat{\Sigma}=\frac{1}{n}\sum_{i=1}^n(X_{(i)}-\bar{X})(X_{(i)}-\bar{X})'.
\]
用到的矩阵求导公式:\(A\)为实对称矩阵时,有
\[\frac{ {\rm d}\ln|A|}{ {\rm d}A}=A^{-1},\\
\frac{ {\rm d}x'Ax}{ {\rm d}A}=xx'.
\]
似然函数为
\[L(\mu,\Sigma)=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\sum_{i=1}^n(x_{(i)}-\mu)'\Sigma^{-1}(x_{(i)}-\mu) \right], \\
l(\mu,\Sigma)=C+\frac{n}{2}\ln|\Sigma^{-1}|-\frac{1}{2}\sum_{i=