【多元统计分析】01.多元统计的基础

最新推荐文章于 2022-08-30 20:09:43 发布

江景页

最新推荐文章于 2022-08-30 20:09:43 发布

阅读量4.1k

点赞数 4

分类专栏：《多元统计分析》学习笔记文章标签：多元统计分析

本文链接：https://blog.csdn.net/jingye333/article/details/109243578

版权

《多元统计分析》学习笔记专栏收录该内容

19 篇文章 117 订阅

订阅专栏

本文介绍了多元统计的基础概念，包括样本数据阵的构造、随机向量的分布（联合分布、边缘分布和条件分布）、数字特征（均值向量、协方差矩阵和相关系数阵）。重点阐述了随机向量的独立性和不相关性的区别，并探讨了数字特征之间的关系及其运算性质。

摘要由CSDN通过智能技术生成

文章目录

一、多元统计基础

一、多元统计基础

1.基本定义与样本数据阵

多元统计与一元统计的最大不同，就在于一元统计的样本全部来自一元总体，而多元总体的样本来自多元总体，用多个随机变量刻画它的多个维度。比如，要获得人的身高分布情况，只要对一个人群中体的样本测量身高，这是一个一元随机变量；而要获得人的身高、体重分布情况，每一个样本就要测量身高、体重，这样组成一个二元随机向量。

很显然，随机向量中的每一个分量都是随机变量，那么对多元总体进行分析时，我们能否分开每一个随机变量分量呢？这是不合理的，因为不同的随机变量之间很可能存在着关联。比如身高、体重显然是存在的关联的，所以往往用BMI衡量人的身体质量情况，如果分开研究，就会打破它们之间的联系，失去一部分信息。

因此，多元统计其实是对多维随机向量的研究，而不是对分开的随机变量的研究。为了描述随机向量的性质，我们需要使用一定的概念来描述。要注意的是，以下出现的向量一般都是列向量。

一个总体中每一个个体具有 $p$ 个属性，它们或存在关联或不存在关联，这 $p$ 个属性分别用 $p$ 个随机变量总体 $X_1,\cdots,X_p$ 来表示。从总体 $X=(X_1,\cdots,X_p)'$ 中抽取 $n$ 个样本，每一个样本记作 $X_{(1)},\cdots,X_{(n)}$ （一般在下标加括号与属性总体区分），这样，每一个样本还可以表示成
$X_{(i)}=(X_{i1},X_{i2},\cdots,X_{ip})',$
将 $n$ 个样本纵向排列，就得到一个 $n\times p$ 矩阵，称为样本数据阵，如下：
$X=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&&\vdots\\ x_{n1}&x_{n2}&\cdots&x_{np} \end{bmatrix}=\begin{bmatrix} X_{(1)}'\\X_{(2)}'\\\vdots\\X_{(n)}' \end{bmatrix}\stackrel {\rm def}=(\mathcal X_1,\cdots,\mathcal X_p) .$
样本数据阵的相关概念如下有：

第 $i$ 行 $X_{(i)}'$ ：代表第 $i$ 个 $p$ 维样本，具有两重性。在观测前，它是 $p$ 维随机向量；在观测后，它是 $p$ 维向量。
第 $j$ 列 $\mathcal X_j$ ：代表第 $j$ 个属性的 $n$ 个观测值，相当于将样本的每个属性分开研究，每一个构成一个样本容量为 $n$ 的样本。

2.随机向量的分布

对 $n$ 个样本进行研究，用到数理统计的知识，多元情况下也不例外。在一元的情形，数理统计是依赖于概率论，尤其是其中的几个重要分布；因此在进行多元统计之前，有必要对随机向量的分布进行讨论。随机向量的分布，指的是联合分布、边缘分布、条件分布等。

$p$ 维随机向量 $X$ 的联合分布是一个 $p$ 元函数
$F(x_1,\cdots,x_p)={\rm P}(X_1\le x_1,\cdots,X_p\le x_p).$
类似一元的情况，如果有一个 $p$ 元非负函数，使得对一切 $(x_1,\cdots,x_p)\in \R^p$ ，都有
$F(x_1,\cdots,x_p)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p}p(s_1,\cdots,x_p){\rm d}(s_1,\cdots,s_p),$
就称 $p(x_1,\cdots,x_p)$ 是 $X$ 的联合概率密度。

如果我们只考虑随机变量的部分分量 $(X_{i_1},\cdots,X_{i_m}),1\le m<p$ 的分布，则部分分量的联合分布，称为 $X$ 的边缘分布。要求某几个分量的边缘分布，只需要将联合分布 $F(x_1,\cdots,x_p)$ 中不关心的那部分分量值取为 $+\infty$ ，剩下的就是边缘分布。

如二元总体 $X=(X_1,X_2)$ 的联合分布是 $F(x_1,x_2)$ ，则 $X_1$ 的边缘分布是 $F(x_1,\infty)$ ， $X_2$ 的边缘分布是 $F(\infty,x_2)$ 。
如果已知总体联合密度，要求边缘密度，则将无关部分进行积分。如二元总体 $X=(X_1,X_2)$ 的联合密度是 $p(x_1,x_2)$ ，则 $X_1$ 的边缘密度就是 $\int_{-\infty}^\infty p(x_1,x_2){\rm d}x_2$ ， $X_2$ 的边缘密度就是 $\int_{-\infty}^\infty p(x_1,x_2){\rm d}x_1$ 。

条件分布指的是给定一部分分量时，另一部分分量的分布。假如 $X=(X^{(1)},X^{(2)})$ ，这里 $X^{(1)}$ 是 $r$ 维随机向量， $X^{(2)}$ 是 $p - r$ 维随机向量，则给定 $X^{(2)}$ 时 $X^{(1)}$ 的条件分布是 $F(X^{(1)}|X^{(2)})$ 。

如果 $X$ 的联合密度是 $p(x^{(1)},x^{(2)})$ ，则条件密度为
$p(x^{(1)}|x^{(2)})=\frac{p(x^{(1)},x^{(2)})}{p(x^{(2)})}.$

定义条件分布后，可以定义随机向量分量的独立性。如果 $F(x_1,\cdots,x_p)=F_1(x_1)\cdots F_p(x_p)$ ，这里 $F_1(x),\cdots,F_p(x)$ 是 $X_1,\cdots,X_p$ 的边缘分布，则称 $X_1,\cdots,X_p$ 相互独立。同理，如果 $f(x_1,\cdots,x_p)=f_1(x_1)\cdots f_p(x_p)$ ，这里 $f_1(x),\cdots, f_p(x)$ 是 $X_1,\cdots,X_p$ 的边缘密度，也称 $X_1,\cdots,X_p$ 相互独立。

以上分布的定义方式，均与一元非常类似，只要区分联合、边缘的区别即可。

3.随机向量数字特征

在一元总体中，我们定义过均值、方差等数字特征，在多元中也可以类似定义一系列数字特征，用来刻画分布的部分性质。不同的是，在多元统计中，我们还需要考虑一个随机向量内部的结构。

对于 $X=(X_1,\cdots,X_p)$ ，如果对每个分量 $X_i$ 都有 ${\rm E}X_i=\mu_i$ 存在，则定义随机向量的均值向量为
${\rm E}(X)=\begin{bmatrix} {\rm E}(X_1)\\{\rm E}(X_2)\\\vdots\\{\rm E}(X_p) \end{bmatrix}=\begin{bmatrix} \mu_1\\\mu_2\\\vdots\\\mu_p \end{bmatrix}.$
多元向量中，每一个分量的方差还有两个分量之间的协方差，可以用一个协方差矩阵来囊括。如果对任何 $i, j$ ，都有 ${\rm Cov}(X_i,X_j)={\rm E}(X_i-\mu_i)(X_j-\mu_j)=\sigma_{ij}$ 存在，则定义协方差阵为
${\rm D}(X)=\begin{bmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\ \vdots&\vdots&&\vdots\\ \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp} \end{bmatrix}=(\sigma_{ij})_{p\times p}\stackrel {\rm def}=\Sigma.$

可以注意到，成立以下等式：
${\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))'].$

类似一元随机变量中由协方差定义相关系数的方式，我们可以定义相关系数阵。如果令 $r_{ij}=r_{X_i,X_j}={\rm Cov}(X_i,X_j)/\sqrt{{\rm D}(X_i){\rm D}(X_j)}=\sigma_{ij}/\sqrt{\sigma_{ii}\sigma_{jj}}$ ，那么定义相关系数阵为
$R=\begin{bmatrix} r_{11}&r_{12}&\cdots&r_{1p}\\ r_{21}&r_{22}&\cdots&r_{2p}\\ \vdots&\vdots&&\vdots\\ r_{p1}&r_{p2}&\cdots &r_{pp} \end{bmatrix}=(r_{ij})_{p\times p}.$

如果记 $V^{1/2}={\rm diag}(\sqrt{\sigma_{11}},\cdots,\sqrt{\sigma_{pp}})$ 为 $X$ 的标准差矩阵，就成立以下等式：
$\Sigma=V^{1/2}RV^{1/2},\quad R=V^{-1/2}\Sigma V^{-1/2}.$

对于两个总体 $X, Y$ ，分别是 $p$ 维和 $q$ 维向量，其协方差阵为 ${\rm COV}(X,Y)={\rm E}[(X-{\rm E}(X))(Y-{\rm E}(Y))']$ ，如果 ${\rm COV}(X,Y)=O_{p\times q}$ ，则称总体 $X, Y$ 不相关。

可以注意到，成立以下等式：
${\rm COV}(X,Y)=[{\rm COV}(Y,X)]'.$

4.随机向量数字特征的性质

首先是随机向量的运算性质：
$\begin{array}{l} {\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'. \end{array}$
这里 $A, B$ 是常数矩阵（满足运算要求）， $X, Y$ 是随机向量。这些运算性质需要牢记，有很广泛的应用。

类比随机变量独立、不相关的关系，我们得出 ${\rm COV}(X,Y)=O_{p\times q}$ 是 $X, Y$ 独立的必要不充分条件，即不相关不一定独立，但独立一定不相关。

关于随机向量的自协方差矩阵 $\Sigma$ ，又有一些独特的性质：

对于任何随机向量 $X$ ，其自协方差矩阵 $\Sigma$ 是非负定对角阵。
$\Sigma=L^2$ ，这里 $L$ 为非负定矩阵，当 $\Sigma>0$ 时称为 $\Sigma$ 的平方根矩阵。只要注意到非负定对角阵可正交对角化即可。
如果 $\Sigma$ 的特征值是 $\lambda_1,\cdots,\lambda_p$ ，则由正定性，所有特征值 $\ge 0$ ，那么 $\Sigma=\Gamma(\lambda_1,\cdots,\lambda_p)\Gamma'$ ，这里 $\Gamma$ 是正交矩阵。所以令 $A=\Gamma(\sqrt\lambda_1,\cdots,\sqrt\lambda_p)$ ，则 $\Sigma=AA'$ 。

总结回顾

样本数据阵，是将 $n$ 个 $p$ 维向量（即样本）按列排构成的矩阵。矩阵中每一列代表一个样本的观测值，每一行代表一个属性维度。
随机向量具有联合分布、边缘分布和条件分布，如果是连续型随机向量，则还有联合密度、边缘密度和条件密度。
由条件分布、条件密度刻画了随机向量分量间的独立性，当联合分布（密度）可拆分为边缘分布（密度）的乘积时，代表分量独立。
随机向量具有均值向量 ${\rm E}(X)$ 、自协方差矩阵 ${\rm D}(X)$ 、自相关矩阵 $R$ 、标准差对角阵 $V^{1/2}$ 等数字特征，刻画两个随机向量的相关程度用协方差矩阵。如果协方差矩阵为0矩阵，则两个随机向量不相关。
随机向量的数字特征之间存在以下联系：
${\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))'],\\ {\rm D}(X)=V^{1/2}RV^{1/2},R=V^{-1/2}{\rm D}(X)V^{-1/2},\\ {\rm COV}(X,Y)=[{\rm COV}(Y,X)]'.$
有以下计算性质是需要记忆的：
${\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'.$
随机向量的协方差矩阵 $\Sigma$ 是非负定对称阵，可以正交分解为 $\Gamma \Lambda\Gamma'$ ，这里 $\Gamma$ 是正交矩阵， $\Lambda$ 是特征值对角阵。如果 $A=\Gamma \Lambda^{1/2}$ ，则 $\Sigma=AA'$ ；如果 $L=\Gamma \Lambda^{1/2}\Gamma'$ ，则 $\Sigma=L^2$ ，当 $\Sigma>0$ 时 $L$ 也是正定的，称为 $\Sigma$ 的平方根矩阵。