多元统计分析最短距离法_多元统计分析大纲(适用于一轮复习)

本文基于《应用多元统计分析》教材整理,适用于备考浙江大学多元统计分析(3学分,课程号06123040),并且跳过其中回归分析的部分。基于不同教材的多元统计侧重点不同,考点也不同,请勿完全参考。整理过程多有疏漏,如果错误,欢迎在评论区指出。

大纲如下:

多元正态分布

多元正态分布基础

参数估计与常用统计量

常用分布

假设检验

归类

判别分析(Discriminatory Analysis)

聚类分析(Cluster Analysis)

降维

主成分分析(Principal Component Analysis)

因子分析(Factor Analysis)

典型相关分析(Canonical Correlation Analysis)

典型计算(另开一篇)

由于是复习笔记,所以内容较为简略。

Part 1:多元正态分布

1-1 多元正态分布基础

样本数据阵的排布,通常是将每一个样本视为一行,\(n\)个样本得到的样本数据阵应当是\(n\times p\)的,\(p\)是所感兴趣的维度。

接下来假设随机向量是\(p\)维的,总体是\(X=(X_1,X_2,\cdots,X_p)\)。随机向量具有如下的基本概念:

联合分布函数:\(p\)元函数\(F\),定义为

\[F(x_1,\cdots,x_p)=\mathbb{P}(X_1\le x_1,\cdots,X_p\le x_p).

\]

联合密度函数:\(p\)元函数\(f\),如果某个联合分布可以表示为

\[F(x_1,\cdots,x_p)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p} f(u_1,\cdots,u_p){\rm d}u_1\cdots{\rm d}u_p.

\]

满足非负性与规范性。

边缘分布:随机向量\(X\)的部分维度\((X_{i_1},\cdots,X_{i_m})\)的分布函数。类似定义边缘密度。

条件分布:将\(X\)分为\(r\)维分量\(X^{(1)}\)与\(p-r\)维分量\(X^{(2)}\),在给定另一个分量的取值时,分量的分布。类似定义条件密度。

特征函数:是\(p\)元函数,定义为

\[\Phi(t)=\mathbb{E}(e^{ {\rm i}t'X}).

\]

类比一元情况下的特征函数。

在边缘分布下可定义分量的独立性:联合分布函数等于边缘分布函数的乘积。相互独立的分量之间,条件分布等于边缘分布。

设\(X=(X_1,\cdots,X_p)\)是\(p\)维随机向量,\(Y=(Y_1,\cdots,Y_q)\)是\(q\)维随机向量。随机向量具有如下常用的数字特征:

均值向量,需要每一个\(X_i\)都有\(\mathbb{E}(X_i)=\mu_i\)存在。

\[\mathbb{E}(X)=\begin{bmatrix}

\mathbb{E}(X_1) \\ \vdots \\ \mathbb{E}(X_p)

\end{bmatrix}=\begin{bmatrix}

\mu_1 \\ \vdots \\ \mu_p

\end{bmatrix}\xlongequal{def}\mu.

\]

自协方差阵,需要每一个\(X_i, X_j\)的协方差\(\mathbb{Cov}(X_i, X_j)\)存在。

\[\mathbb{D}(X)=\mathbb{E}[(X-\mathbb{E}(X))(X-\mathbb{E}(X))']\xlongequal{def}(\sigma_{ij})_{p\times p}, \\

\mathbb{D}(X)=\begin{bmatrix}

\mathbb{Cov}(X_1, X_1) & \mathbb{Cov}(X_1, X_2) & \cdots & \mathbb{Cov}(X_1, X_p) \\

\mathbb{Cov}(X_2, X_1) & \mathbb{Cov}(X_2, X_2) & \cdots & \mathbb{Cov}(X_2, X_p) \\

\vdots & \vdots & \ddots & \vdots \\

\mathbb{Cov}(X_p, X_1) & \mathbb{Cov}(X_p, X_2) & \cdots & \mathbb{Cov}(X_p, X_p)

\end{bmatrix}\xlongequal{def}\Sigma.

\]

互协方差阵,需要每一个\(X_i, Y_j\)的协方差\(\mathbb{Cov}(X_i, Y_j)\)存在。

\[\mathbb{COV}(X, Y)=\begin{bmatrix}

\mathbb{Cov}(X_1, Y_1) & \mathbb{Cov}(X_2, Y_1) & \cdots & \mathbb{Cov}(X_1, Y_q) \\

\mathbb{Cov}(X_2, Y_1) & \mathbb{Cov}(X_2, Y_2) & \cdots & \mathbb{Cov}(X_2, Y_q) \\

\vdots & \vdots & \ddots & \vdots \\

\mathbb{Cov}(X_p, Y_1) & \mathbb{Cov}(X_p, Y_2) & \cdots & \mathbb{Cov}(X_p, Y_q)

\end{bmatrix}_{p\times q}.

\]

相关系数阵,需要自协方差阵存在,即相关系数构成的矩阵。

\[r_{ij}=\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sqrt{\sigma_{jj}}}},R\xlongequal{def}(r_{ij})_{p\times p}.

\]

标准差阵,每一个随机变量的标准差构成的对角阵,极少用到。

\[V^{1/2} ={\rm diag}(\sqrt{\sigma_{11}}, \cdots, \sqrt{\sigma_{pp}}).

\]

有\(\Sigma=V^{1/2}RV^{1/2}\)和\(R=V^{-1/2}\Sigma V^{-1/2}\)。

数字特征的相关性质:

计算性质,有

\[\mathbb{E}(AXB)=A\mathbb{E}(X)B,\\

\mathbb{D}(AX)=A\mathbb{D}(X)A',\\

\mathbb{COV}(AX, BY)=A\mathbb{COV}(X, Y)B'.

\]

\(\Sigma=\mathbb{D}(X)\)是对称非负定的,且当\(X\)线性无关时是正定的。对称非负定矩阵具有平方根,即\(\exists L\)使得\(\Sigma=L^2\)。

\[\Sigma=U\Lambda U',\quad L=U\Lambda^{1/2}U'.

\]

如果\(\Sigma\)追加是正定的,则有Cholesky分解:\(\Sigma=LL'\),这里\(L\)是下三角矩阵。

多元正态分布的定义方式:

独立标准正态分布的线性组合:设\(U=(U_1,\cdots,U_q)'\),每一个\(U_q\)独立同分布服从\(N(0, 1)\)。任意\(p\times q\)矩阵\(A\)和\(p\)维常数列向量\(\mu\)构造的随机向量:

\[AU+\mu\xlongequal{def}X\sim N_p(\mu, AA').

\]

特征函数法(几乎不用):对于\(\Sigma\ge 0\)和常数向量\(\mu\),多元正态分布随机向量\(X\)具有如下的特征函数:

\[\Phi_X(t)=\exp\left[{\rm i}t'\mu-\frac{1}{2}t'\Sigma t \right],\\

X\sim N_p(\mu,\Sigma).

\]

分量的线性组合(可理解为一种性质,用于证否):若\(p\)维随机向量\(X\)的任意线性组合均服从正态分布,则\(X\)服从多元正态分布。

联合密度法:对于\(\Sigma>0\)和常数向量\(\mu\),多元正态分布随机向量\(X\)具有如下的联合密度:

\[f(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac{1}{2}(x-\mu)'\Sigma^{-1}(x-\mu) \right],\\

X\sim N_p(\mu,\Sigma).

\]

这给出非退化正态随机向量的定义方式。

多元正态分布的常用性质:

如果\(X\sim N_p(\mu,\Sigma)\),常数阵\(C_{q\times p}\),则

\[CX\sim N_q(C\mu, C\Sigma C').

\]

如果\(X\sim N_p(\mu,\Sigma\),将\(X\)分成\(r\)维的\(X^{(1)}\)与\(p-r\)维的\(X^{(2)}\),则

\[X^{(1)}\sim N_r(\mu^{(1)}, \Sigma_{11}), \\

X^{(2)}\sim N_{p-r}(\mu^{(2)}, \Sigma_{22}), \\

\mathbb{COV}(X^{(1)}, X^{(2)})=\Sigma_{12}=\Sigma_{21}'.

\]

多元正态分布分量间不相关性与独立性等价。

独立性投影:\(X^{(1)}\)在\(X^{(2)}\)方向上的投影是

\[\Sigma_{12}\Sigma_{22}^{-1}X^{(2)},

\]

这相当于\(X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\)与\(X^{(2)}\)不相关(即独立)。由此,可以作可逆线性变换如下:

\[B=\begin{bmatrix}

I_r & -\Sigma_{12}\Sigma_{22}^{-1} \\

O & I_{p-r}

\end{bmatrix},\\

Z=BX=\begin{bmatrix}

X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \\ X^{(2)}

\end{bmatrix}\xlongequal{def}\begin{bmatrix}

Z^{(1)} \\ Z^{(2)}

\end{bmatrix}.

\]

由此,再结合随机向量函数密度公式,可以计算得到

\[(X^{(1)}|X^{(2)})\sim N_r(\mu_{1\cdot 2}, \Sigma_{11\cdot2}),\\

\mu=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(X^{(2)}-\mu^{(2)}),\\

\Sigma_{11\cdot 2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}.

\]

1-2 参数估计与常用统计量

以下假设\(X\)是\(n\times p\)数据矩阵,第\(i\)行代表第\(i\)个样品的观测值\(X_{(i)}\);\(\boldsymbol{1}_n\)代表\(n\)维纯\(1\)列向量。常用统计量:

样本均值向量\(\bar X\):常用作样本均值的估计。

\[\bar X=\frac{1}{n}\sum_{i=1}^nX_{(i)}=\frac{1}{n}X'\boldsymbol{1}_n.

\]

样本离差阵\(A\):类比一元情况下的离差平方和,是一个\(p\times p\)矩阵。

\[A=\sum_{i=1}^n(X_{(i)}-\bar X)(X_{(i)}-\bar X)'=X'X-\frac{1}{n}\bar X\bar X'=X'(I_n-\frac{1}{n}\boldsymbol{1}_n\boldsymbol{1}'_n)X.

\]

样本协方差阵\(S\):类比一元情况下的样本方差,常用作自协方差矩阵的估计。

\[S=\frac{1}{n-1}A\xlongequal{def}(s_{ij})_{p\times p}.

\]

样本相关阵\(R\):常用作相关阵的估计。

\[R\xlongequal{def}(r_{ij})_{p\times p},\quad r_{ij}=\frac{s_{ij}}{\sqrt{s_{ii}}\sqrt{s_{jj}}}.

\]

在实际应用中,要求相关阵,一般先对数据矩阵进行标准化,再求协方差阵即可。标准化指的是扣掉均值、除以标准差。

正态总体\(N_p(\mu,\Sigma)\)中,常用统计量的性质:

\(\bar X\sim N_p(\mu,\Sigma/n)\)。

设\(Z_1,\cdots,Z_{n-1}\)独立同分布于\(N_p(0,\Sigma)\),则

\[A\xlongequal{d}\sum_{i=1}^{n-1}Z_iZ_i'.

\]

\(\bar{X}\)和\(A\)相互独立。

\(\mathbb{P}(A>0)=1\Leftrightarrow n>p\)。

前三点通过构造正交矩阵\(\Gamma\)(最后一行为\(\frac{1}{\sqrt{n}}\))来证明,第四点令\(B=(Z_1,\cdots,Z_{n-1})\),有\(A=BB'\),由\(r(A)=r(B)\)只需证明\(B\)的前\(p\)列线性相关概率为0即可。

多元正态分布参数\((\mu,\Sigma)\)的极大似然估计:

如果\(\mu,\Sigma\)均未知,则

\[\hat{\mu}=\bar{X}, \hat{\Sigma}=\frac{1}{n}A.

\]

注意极大似然估计不是样本协方差阵,经过无偏调整后才是样本协方差阵。

如果\(\mu\)已知,则

\[\hat{\Sigma}=\frac{1}{n}\sum_{i=1}^n(X_{(i)}-\bar{X})(X_{(i)}-\bar{X})'.

\]

用到的矩阵求导公式:\(A\)为实对称矩阵时,有

\[\frac{ {\rm d}\ln|A|}{ {\rm d}A}=A^{-1},\\

\frac{ {\rm d}x'Ax}{ {\rm d}A}=xx'.

\]

似然函数为

\[L(\mu,\Sigma)=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\sum_{i=1}^n(x_{(i)}-\mu)'\Sigma^{-1}(x_{(i)}-\mu) \right], \\

l(\mu,\Sigma)=C+\frac{n}{2}\ln|\Sigma^{-1}|-\frac{1}{2}\sum_{i=

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值