概率论与数理统计（第三章-多维随机变量及其分布_随机变量及其分布与多维随机变量及其分布的区别与联系-CSDN博客

本文链接：https://blog.csdn.net/qq_35167821/article/details/105979969

关于二维，有新引入了边缘分布，条件分布和独立性等概念，其实也就是将原来一个变量变成了两个变量，需要我们考虑两者的影响。

多维的
~~多维随机变量的分布函数~~
~~为什么要有多维的随机变量函数？~~
~~多维随机变量分布函数和一维随机变量分布函数之间的联系和区别？~~
~~说的是用一维来研究多维，是怎么研究的？这里面有什么不同需要注意的，比如说有边缘分布和条件分布，还有最后的独立性(前面就有）~~
~~多维随机变量的分类~~
~~常见的多维随机变量~~
~~随机变量函数的分布，和函数，两个随机变量的积、商，还有最大最小变量的分布函数，以及这里可能会涉及到的序统计量的分布~~

1 概述之瞎逼逼

为什么要有了一维的随机变量之后，还要引入多维随机变量？
也就是为什么要有简单研究到复杂？
由一维 --> 多维，简单 --> 复杂，无非只有三点：

不够
不能
有更好

具体点，分别是

对于我们所想要研究的东西，原来的定义/方法对于我们想要研究的东西是不够的，我们需要更多。
原来的定义/概念很重要，但是不能去帮助我们去达到新的目标。（自己感觉是跟上条一样的…
例如，极大似然到EM算法的过渡，就是有一个隐含变量，导致我们不能够依照求似然函数，极大化来估计未知参数，而需要先求给定初值，对于隐含变量求期望，最大化期望，迭代来找出未知参数的估计值。
原来的方法是好的，但是由于其速度过慢或者说效率过低，我们设计出了更好的方法来解决问题。

跟之前一元的联系与区别：

研究了边缘分布
引入条件分布
由于条件概率，引入独立性

2 分布函数

研究一个或者多个随机变量，想要研究它的统计规律性，因为变量的统计规律性可以由其分布函数完全决定，所以跟一维随机变量一样，我们也需要研究随机变量的分布函数。

定义

分布函数，跟一维的分布函数是类似的，不过变成了两个随机变量而已，是数学中的二元函数。它是所有 $(X, Y)$ 分别小于某个数 $(x, y)$ 的概率。每一个 $x$ 和 $y$ 都对应着一个随机变量的概率。即
$F(x,y)=P(X\le x,Y\le y)$

性质

分布函数有四条性质：
（1）类似于一维随机变量的单调性。即关于 $x$ 和 $y$ 单调不减。
（2）取值01之间。有 $0\le F(x,y)\le 1$ .且
$F(x,-\infty)=0, F(-\infty,y)=0$ $F(-\infty,-\infty)=0, F(+\infty,+\infty)=1$
（3）右连续性。也类似于一元，分别关于 $x$ 和 $y$ 右连续。即
${\lim\limits_{s \to x^+_0}}F(s,y)=F(x+0,y)=F(x,y)$ ${\lim\limits_{t \to y^+_0}}F(x,t)=F(x,y+0)=F(x,y)$
（4）非负性。 $\forall x_1 \le x_2,y_1 \le y_2$ ，有
$F(x_2,y_2)-F(x_1,y_2)-F(x_2,y_1)+F(x_1,y_1)\ge0$

离散型二维随机变量

一个随机变量组只有有限或者可列种取值情况，则称这个随机变量为离散型随机变量。

分布函数：
$\le x, Y \le y)=\sum_{x_i \le x} \sum_{y_i \le y} p_{ij}$

连续型二维随机变量

如果一个随机变量 $(X, Y)$ 是二维随机变量，若存在非负二元函数 $f (x, y)$ ，对于任意实数 $x, y$ 有，
$\le x, Y \le y) = \int_{-\infty}^x \int_{-\infty}^y f(u,v)\rm dudv$
我有时候就在想，为啥需要使用一个分布，即一个连续函数的积分来表示一个连续型随机变量的分布。

是连续的性质吗？
首先回顾一下连续的定义：
设二元函数 $f (P) = f (x, y)$ 的定义域为 $D$ ， $P_0(x_0,y_0)$ 为 $D$ 的聚点，且 $P_0 \in D$ . 如果 $\lim_{(x,y) \to (x_0,y_0)}f(x,y)=f(x_0,y_0)$
则称函数 $f (x, y)$ 在点 $P_0(x_0,y_0)$ 连续.

连续的直观意义是，当在自变量的周围，它无限趋于一个点的时候，那么它的函数之也趋于在那一点的函数值（这实际上还是上面定义的解释）。我换句话，连续说了，是可以在一个区间种取值，当自变量变化不大的时候，它的函数的变化也不大，这就说明这个随机变量函数时连续的。
对应到这里，就是随机变量在每一点处取值的概率都为0.

以下两个随机变量均为连续型随机变量。

均匀分布

设 $G$ 是平面上的有界区域，其面机为S，若二维随机变量 $(X, Y)$ 的概率密度为
$f(x,y)=\left\{ \begin{aligned} \frac{1}{S}, &&x\in S\\ 0, && other \end{aligned} \right.$
则称随机变量 $(X, Y)$ 在 $G$ 上服从均匀分布。

正态分布

设随机变量 $(X, Y)$ 的概率密度
$\begin{aligned} f(x,y)=& \cfrac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}}\exp \{-\cfrac{1}{2(1-\rho^2)} \cdot \\ & [(\cfrac{x-\mu_1}{\sigma_1})^2-2\rho\cfrac{(x-\mu_1)(x-\mu_2)}{\sigma_1\sigma_2}+(\cfrac{y-\mu_2}{\sigma_2})^2]\},\\ & -\infty<x<+\infty,-\infty<y<+\infty. \end{aligned}$
其中， $-\infty<\mu_1<+\infty,-\infty<\mu_2<+\infty,\sigma_1>0,\sigma_2>0,|\rho|<1$ ，称 $(X, Y)$ 服从二维正态分布，记为 $(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2)$ .

3 边缘分布

我们有的时候根据一个二维的随机变量的联合分布，又想要知道他们各自的分布是多少，这就需要我们引入边缘分布的概念了。

以 $x$ 的边缘分布来解释， $x$ 的边缘分布是由他们的联合分布得来的，这里面没有 $y$ 相关的变量分布，仅仅与 $x$ 有关。

那么怎么样由一个二维分布函数来知道 $x$ 的概率分布呢？

在开始介绍集合论的时候，我们有提及到全集的一个划分，将全集划分为有限个互不相容的部分，再利用全概率公式，我们就可以求得另外一个随机变量的分布了。

利用划分的思想，这里，取尽y的所有值（在分布函数中另 $\to +\infty$ ，或者说对所有的 $y$ 求和），就可以得到 $x$ 的分布 $F_X(x)$ 。

4 条件分布

因为研究的是二维随机变量的分布，以前也研究过条件概率，以前是研究一个事件A的发生对另一个事件B的影响，在这里就想要研究一个变量的发生对另一个变量的分布会产生什么影响。从这个角度出发，就可以引入条件分布了。
注：所有的影响都是体现在统计规律性的影响上的，即对分布或者概率的影响。

定义

所谓的条件条件，就是要研究，在一个事件发生之后，另一个随机变量的分布是怎样的，它会不会影响另一个变量的分布？条件分布讲述的就是条件对于后来事件的影响的规律性的刻画。

计算

与一元随机变量类似，随机变量分为连续型随机变量和离散型随机变量。

对于离散型，则可以直接利用之前学习到的条件概率的公式求得条件概率的大小。
若对某一个 $p_{i\cdot}>0,j=1,2,\cdots.$
$P(Y=y_i|X=x_i)=\cfrac{p_{ij}}{p_{i \cdot}},j=1,2,\cdots.$
称为随机变量 $(X, Y)$ 的条件概率分布列。
而对于连续型，就有些不同了。
连续型随机变量是充满着某个区间的，它落在区间中某个点的概率是0，而又由条件概率的知识知道，条件概率要求条件发生的概率不为0，那么我们再怎样计算这个条件密度呢？
这里我们利用的是极限思想：即在条件x落入某个非常小的区间时，Y的分布是怎样的。两边分别除以这个任意小的数，就可以得到一个极限函数，这极限函数就是我们所期望得到的条件概率密度函数。
也即：
$\begin{aligned} F_{X|Y}(x|y) &={\lim\limits_{\epsilon \to0^+}}P(X \le x|y-\epsilon<Y \le y+\epsilon)\\ &={\lim\limits_{\epsilon \to0^+}}\frac{P(X\le x,y-\epsilon<Y \le y+\epsilon)}{P(y-\epsilon<Y \le y+\epsilon)} \end{aligned}$
（打公式搞了我半天，主要想使用等号对齐的功能，于是就需要使用aligned而不是align

性质

（2021.10.30更新一个条件概率的性质，因为最近发现还是挺常用的）
条件概率的性质

(1) 非负性 $\ge 0$ .

(2) 规范性 $p(\Phi|B) = 0$ .

(3) $P(A_1 \cup A_2 |B) = P(A_1|B) + P(A_2 | B) - P(A_1A_2 |B)$
独立时，右边只有前两项。

(4) $P(\overline{A} | B)$ .

(5) 可列可加性：设 $B_1, B_2, \cdots,$ 是两两互不相容的事件，则有
$P\left(\bigcup_{i=1}^{\infty}B_i | A\right) = \sum_{i=1}^{\infty}P(B_i|A)$
(6) 设 $A, B, C$ 为事件，且 $P (A B) > 0$ , 则有
$P (A B C) = P (A) P (B ∣ A) P (C ∣ A B)$
(7) (6的推广) 设 $A_1, A_2, \cdots, A_n$ 为n个事件， $n\ge 2$ , 且 $P(A_1A_2\cdots A_{n-1}) > 0$ , 则有
$P(A_1A_2\cdots A_n) = P(A_1)P(A_2|A_1)\cdots P(A_{n}|A_1A_2\cdots A_{n-1})$

5 独立性

为啥要考虑到独立呢？
因为之前考虑到了一个随机变量会不会对另一个随机变量的分布产生影响，有影响的情况，当然也就有没有影响的情况呀，再者，在变量之间相互的条件下，分析解决问题更加简单方便。

定义

独立性很简单，两个随机变量的分布函数等于各个随机变量的分布函数的乘积。即，
$F(x,y)=F_X(x) \cdot F_Y(y)$
它的等价形式为：
$\le x, Y \le y)=P(X \le x)P(Y \le y)$
对于离散型随机变量，它的充要条件是 $p_{ij} = p_i \cdot p_j$ ；
两个连续型随机变量相互独立的充要条件是他们的联合概率密度等于各自的概率密度函数的乘积，即 $f(x,y)=f_X(x) \cdot f_Y(y)$ 。

常用结论

如果多个（n个）随机变量 $X_1,X_2,\cdots,X_n$ 相互独立，那么其中任意2至n个变量相互独立。
如果多个随机变量 $X_1,X_2,\cdots,X_n$ 相互独立，那么他们的函数 $g_1(X_1),g_2(X_2),\cdots,g_n(X_n)$ 之间也相互独立。
如果 $m$ 维随机变量 $(X_1,X_2,\cdots,X_m)$ 和另外一个 $m$ 维随机变量 $(Y_1,Y_2,\cdots,Y_n)$ 之间相互独立，那么两个整体的函数的构成新的随机变量之间也相互独立。即对任意的实数 $x_1,x_2,\dots,x_m$ 和 $y_1,y_2,\cdots,y_n$ ，有
$\begin{aligned} F(x_1,x_2,\cdots,x_m;y_1,y_2,\cdots,y_n) \qquad\\ = F_1(x_1,x_2,\dots,x_m) \cdot F(y_1,y_2,\cdots,y_n) \end{aligned}$
同时，它们各自函数 $g(X_1,X_2,\cdots,X_m),h(Y_1,Y_2,\cdots,Y_n)$ 分布也是相互独立的.
(找了半天，没有看见等号对齐的，所以就先这样了，最后你看见对齐的是我在第一行后面加上了一个\qquadlatex中的空格）

6 多维随机变量函数的分布

概述

和、积、商、最大最小。

提及一下具有可加性的分布：
（1）二项分布，（2）泊松分布，（3）正态分布，（4）卡方分布，（5）Gamma分布，（6）柯西分布。

这些东西，其实很简单，书上讲述的基本上没有什么难以理解的点，为了简便，只写每个函数的要点。

和的分布

一般针对连续型随机变量来讲的，但是需要注意，也可以用这种思想去求混合随机变量的分布函数，或者是离散型随机变量和的分布列。
注意寻找使得随机变量概率密度函数不为0的区域，有独立性的条件，则可以使用卷积公式。
将两个随机变量的和用一个新的变量来表示时，依旧要注意在原变量用新变量表示的时候，考虑原来变量的取值范围（也是使得概率密度函数不为0的区域）。

积的分布

同上

考虑原来变量的取值范围。

商的分布

注意除数不为0的条件。

最大最小

直接使用分布函数来求即可。
求随机变量的最小的那一步，需要使用到逆事件。
公式记住。

最后

写的修改了两天，昨天，今天。
本来在昨天写的时候，我依旧觉得这将会是一个没有感情的知识介绍，但是没有想到今天能够写出点带有思考的东西。主要是因为今天早起，专门写这个东西，比较专注，早上脑子也比较的灵活。想到为什么连续型随机变量为什么要用分布函数来定义，去搜索，获得了一些思考，虽然还是不那么全面，但是至少得到了一点自己的理解，很开心。
那么，继续。