1.3.随机变量，随机向量的自相关与自协方差

最新推荐文章于 2024-06-16 12:16:51 发布

enthwxq

最新推荐文章于 2024-06-16 12:16:51 发布

阅读量1.4w

点赞数 16

分类专栏： matrix ML

本文链接：https://blog.csdn.net/enthwxq/article/details/84304915

版权

ML 同时被 2 个专栏收录

18 篇文章 1 订阅

订阅专栏

matrix

11 篇文章 1 订阅

订阅专栏

一、变量与随机变量

什么是变量？变量是指没有固定的值，可以改变的数。我们记成 $\large x,y,z$ 等等，与之相应的就是常量， $\large \pi ,e$ 等。

什么是随机变量？这里并不讨论随机变量的标准数学定义，给一个直观的理解就是：当一个变量 $\large x$ 有某一个概率取特定的值时，即 $\large p(x=a)=b$ ,它就是随机变量。可以很清晰的感受到，随机变量与普通的变量区别就是它多了一个特点，这个特点就是它取某一个确定的值是有确定概率的。并且随机变量的所有取值对应的概率之和（离散）或是积分（连续）一定等于1.即 $\large \int_{-\infty }^{+\infty}f(x)=1$ 或是 $\large \sum _{-\infty}^{+\infty}p(x)=1$ ，f(x)和p(x)分别是对应的概率密度函数。

以上的说法有一个缺点就是，概率的具体定义是什么？以频率学派和贝叶斯学派的角度去思考，概率的定义是不一样的。详细见：

https://www.zhihu.com/question/20587681?sort=created

讨论，这里不并细究，只是知道随机变量的每个取值对应着一个概率即可，并且概率满足非负，之和为1等必要的性质）。

当我们说x是随机变量的时候，脑子里首先要想到在它的背后，还有一个概率密度曲线反映着它取某个值的概率。

二、随机向量

将几个随机变量按顺序放在一起，组成向量的形式，就是随机向量。在样本空间全部都一样的情况下，一个n维的随机向量就是

$\large \vec{x(\xi )}=\begin{pmatrix} x_{1}(\xi )\\ x_{2}(\xi ) \\ ... \\ x_{n}(\xi ) \end{pmatrix}$ ，其中 $\large \xi$ 就是样本空间中的样本点。随机变量 $\large X$ 或者 $\large x(\xi )$ 是１维随机向量的特殊情况。

接下来从细节谈起，循序渐进。

定义向量外积如下： $\large x_{m \times 1},y_{n \times 1}$ 的外积 $\large xy^T$ ,是一个MxN的矩阵。

1.一个离散随机变量 $\large X$ ，它的分布如下表：

X	-1	1	2
$\large p(x)$	1/3	1/2	1/6

$\large E(x)=\sum_{i=1}^{\infty}x_{i}p_{i}=1/3$

另一个随机变量 $\large Y$ ，它的分布如下表：

Y	0	1
$\large p(y)$	1/2	1/2

$\large E(y)=\sum_{i=1}^{\infty}y_{i}p_{i}=1/2$

假设X，Y是相互独立的，我们求 $\large XY$ 的分布。根据定义我们可以直接这么求：

X顺序取值的向量与Y顺序取值的向量做一个外积，X的顺序取值向量为： $\large \begin{pmatrix} -1\\1 \\2 \end{pmatrix}$ ，Y的顺序取值向量： $\large \begin{pmatrix} 0\\1 \end{pmatrix}$ ，进行 $\large XY^{T}$ ，得到了：

$\large \begin{pmatrix} 0 &-1 \\ 0& 1\\ 0&2 \end{pmatrix}$ ，这个矩阵装的是XY所有可能的取值，又因为X，Y是独立的，我们把它们各自的概率按顺序组成的向量做外积就构成了另一个矩阵， $\large \begin{pmatrix} 1/3\\1/2 \\1/6 \end{pmatrix}\begin{pmatrix} 1/2&1/2 \end{pmatrix}$ $\large =\begin{pmatrix} 1/6 &1/6 \\ 1/4 &1/4 \\ 1/12& 1/12 \end{pmatrix}$ ，

我们得到了两个矩阵， $\large \begin{pmatrix} 0 &-1 \\ 0& 1\\ 0&2 \end{pmatrix}$ 是XY的取值矩阵， $\large \begin{pmatrix} 1/6 &1/6 \\ 1/4 &1/4 \\ 1/12& 1/12 \end{pmatrix}$ 是XY取对应各值时的概率，观察取值矩阵，发现第一列全是０，说明当XY取０时，有不同的X，Y组合，使得XY等于０，因为XY是一个随机变量（一维的随机向量），所以我们遍历两个矩阵的所有元素，将XY取值相等的概率加起来，然后重新写成分布律的形式，就成了这样：

XY	0	-1	1	2
P (XY)	6/12	2/12	3/12	1/12

总结我们上述的讨论，其实就是说明了：根据独立的随机变量X，Y的边缘分布，我们可以确定XY的分布（这里并不是X与Y的联合分布）。并且期望 $\large E(XY)=E(X)E(Y)$ 。

对于两个不独立的随机变量X与Y，我们是无法根据它们的边缘分布确定XY的分布，只能通过X与Y的联合分布去算XY的分布，且

通常情况下 $\large E(XY)\neq E(X)E(Y)$ 。

所以 $\large E(XY)$ 与 $\large E(X)E(Y)$ 两者组合也可以衡量X，Y之间是否相关的关系。

2.自相关与互相关

对于一个n维随机向量 $\large \vec{x}$ ，定义自相关矩阵为该随机向量与自身外积的数学期望，即 $\large R_{\vec{x}}=E[\vec{x}\vec{x}^T]$ 。

以二维举例： $\large \mathbf{x}\in R^2,\mathbf{x }=\begin{pmatrix} x_1\\x_2\end{pmatrix}$ ， $\large \mathbf{x }\mathbf{x }^{T}=\begin{pmatrix} x_1\\x_2\end{pmatrix}\begin{pmatrix} x1 & x2 \end{pmatrix}=\begin{pmatrix} x_{1}^2 & x_{1}x_{2}\\ x_{1}x_{2}& x_{2}^2 \end{pmatrix}$ , 注意到 $\large \vec{x}\vec{x}^{T}$ 其实是在以原有的2个随机变量 $\large x_{1},x_{2}$ ，构造三个新的变量 $\large x_{1}^2 , x_{1}x_{2}, x_{2}^2$ ,最后在同时取一个期望，得到 $\large E[\vec{x}\vec{x}^T]=$ $\large \begin{pmatrix}E(x_{1}^2 )& E(x_{1}x_{2})\\ E(x_{1}x_{2})& E(x_{2}^2) \end{pmatrix}$ $\large =\begin{bmatrix} r_{1,1} &r_{1,2} \\r_{2,1} & r_{2,2} \end{bmatrix}$ ,其中， $\large r_{i,i}=E[x_{i}^2]$ 记为自相关函数， $\large r_{i,j}=E[x_{i}x_{j}]$ 记为互相关函数。

需要注意的是，这里说的r并不是相关系数！相关系数的记号是 $\large \rho _{x,y}$ .自相关矩阵是对称阵。

当扩展到两个随机向量 $\large \vec{x}\in R^m,\vec{y}\in R^n$ 时，它们的互相关矩阵为： $\large R_{x,y}=E[\mathbf{\vec{x}\vec{y}^T}]$ ,是一个MxN的矩阵。

3.自协方差与互协方差

当X,Y是随机变量时，它们的协方差定义为： $\large cov(X,Y)=E((X-E(X)(Y-E(Y))=E(XY)-E(X)E(Y)$ ，有1中的例子可以很清晰的明白为什么协方差可以定量的衡量X，Y之间是否是相关的。

接下来就是随机向量。当我们把n个随机变量组合在一起考虑时，就有了一个n维的随机向量 $\large \vec{x(\xi )}=\begin{pmatrix} x_{1}(\xi )\\ x_{2}(\xi ) \\ ... \\ x_{n}(\xi ) \end{pmatrix}$ ，其中，每一个 $\large x_{i}(\xi)$ 都反应着在同一个样本空间下的不同特征。

将两个随机变量之间的协方差进行拓展，拓展成随机向量的协方差矩阵，就有：

$\large C_{\vec{x}}=Cov(\mathbf{x,x})=E[(\mathbf{x}(\xi)-\mathbf{\mu_{x}} )(\mathbf{x}(\xi)-\mathbf{\mu_{x}})^T]$ ,以二维随机向量举例来看，就是这样：

$\large \mathbf{x}\in R^2,\mathbf{x-\mu_{x} }=\begin{pmatrix} x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}$ , $\large ( \mathbf{x-\mu_{x} })(\mathbf{x-\mu_{x} })^T=\begin{pmatrix} x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\begin{pmatrix} x_{1}-\mu_{1}&,x_{2}-\mu_{2} \end{pmatrix}$ $\large =\begin{bmatrix}(x_{1}-\mu_{1})(x_{1}-\mu_{1}) & (x_{1}-\mu_{1})(x_{2}-\mu_{2})\\ (x_{1}-\mu_{1})(x_{2}-\mu_{2}) & (x_{2}-\mu_{2})(x_{2}-\mu_{2}) \end{bmatrix}$ ,所以 $\large E(\begin{bmatrix}(x_{1}-\mu_{1})(x_{1}-\mu_{1}) & (x_{1}-\mu_{1})(x_{2}-\mu_{2})\\ (x_{1}-\mu_{1})(x_{2}-\mu_{2}) & (x_{2}-\mu_{2})(x_{2}-\mu_{2}) \end{bmatrix})=\begin{bmatrix}E((x_{1}-\mu_{1})(x_{1}-\mu_{1})) & E((x_{1}-\mu_{1})(x_{2}-\mu_{2}))\\ E((x_{1}-\mu_{1})(x_{2}-\mu_{2})) & E((x_{2}-\mu_{2})(x_{2}-\mu_{2})) \end{bmatrix}$

$\large \begin{bmatrix} cov(x1,x1) &cov(x1,x2) \\cov(x1,x2) &cov(x2,x2) \end{bmatrix}$ 。

一个随机向量的自协方差矩阵对角元素是第i个元素的方差，处在第（i，j）的非对角元素就是第i个随机变量（特征）和第j个随机变量（特征）的协方差。

根自相关矩阵一样，自协方差矩阵也是对称的。

同理，也引入互协方差矩阵， $\large C_{\vec{x},\vec{y}}=E[(\mathbf{x}(\xi)-\mathbf{\mu_{x}} )(\mathbf{y}(\xi)-\mathbf{\mu_{y}})^T]=Cov\mathbf{(x,y)}$ 。

综合2，3可以得到： $\large C_{\mathbf{x,y}}=R_\mathbf{{x,y}}-\mu_{x}\mu_{y}^T$ 。即自/互协方差矩阵，只是自/互相关矩阵进行了一个平移而已，平移的幅度为均值。在实际应用中，协方差应用的多一些， $\large C_{x}$ 又记作 $\large Var(\mathbf{x})$ .自协方差有性质： $\large Var(A\mathbf{x}+b)=Var(A\mathbf{x})=AC_{x}A^T$ 。

关于互协方差，这里讨论不多，相关性质可以自己查看《矩阵分析与应用》第二版（张贤达，清华大学出版社）P40.

三、实高斯随机向量

$\large f(\mathbf{\vec{x}})=\frac{1}{(2\pi )^{\frac{n}{2}}|\Sigma |^\frac{1}{2}}exp(-\frac{1}{2}(\boldsymbol{\vec{x}-\vec{\mu}})\Sigma ^{-1}\mathbf{(\vec{x}-\vec{\mu})})$ ,其中 $\large \vec{\mu},\Sigma ^{-1}$ 分别是均值向量和协方差矩阵的逆矩阵。

enthwxq

关注

16
点赞
踩
56

收藏

觉得还不错? 一键收藏
2
评论
1.3.随机变量，随机向量的自相关与自协方差

一、变量与随机变量什么是变量？变量是指没有固定的值，可以改变的数。我们记成等等，与之相应的就是常量，等。什么是随机变量？这里并不讨论随机变量的标准数学定义，给一个直观的理解就是：当一个变量有某一个概率取特定的值时，即,它就是随机变量。可以很清晰的感受到，随机变量与普通的变量区别就是它多了一个特点，这个特点就是它取某一个确定的值是有确定概率的。并且随机变量的所有取值对应的概率之和（离散）或是...
复制链接

扫一扫

专栏目录