01.第一章初等概率论

最新推荐文章于 2022-10-02 15:11:45 发布

江景页

最新推荐文章于 2022-10-02 15:11:45 发布

阅读量1.2k

点赞数 2

分类专栏：《随机过程》学习笔记文章标签：概率论

本文链接：https://blog.csdn.net/jingye333/article/details/108430173

版权

《随机过程》学习笔记专栏收录该内容

12 篇文章

订阅专栏

第一章初等概率论

1.概率空间、随机变量与数字特征

概率空间通常记作 $(\Omega, \mathcal F, P)$ ，其中 $\Omega$ 是样本空间表示随机试验的所有可能基本结果， $\mathcal F$ 表示事件域， $P$ 代表概率。

$\Omega$ 由一系列样本点 $\omega$ 组成（有限或无限），且 $P(\Omega)=1$ ；
$\mathcal F$ 是事件域，是所有事件 $A$ 的集合；每一个事件 $A$ 包含一系列样本点 $\omega$ ；
$P$ 是作用于事件域 $\mathcal F$ 上的函数。

在给定事件 $B$ 已经发生的情况下 $A$ 发生的概率称为条件概率，定义为
$P(A|B)=\frac{P(AB)}{P(B)},\quad A,B\in \mathcal F$
由概率空间的定义， $(\Omega, \mathcal F, P(\cdot|B))$ 也是一个概率空间。有一些与条件概率相关的公式：

全概率公式：对于一个完备事件组 $B_1,\cdots,B_N(N\le \infty)$ ，即两两不相容且 $\Omega=\sum_{i=1}^N B_i$ ，则对任意事件 $A$ 有
$P(A)=\sum_{i=1}^N P(A|B_i)P(B_i)$
由此推论，对于事件 $B$ ，若 $\bar B$ 为其反，则
$P(A)=P(A|B)P(B)+P(A|\bar B)P(\bar B)$
链式法则：由于 $P (A B) = P (B) P (A ∣ B)$ ，故进行推广，有
$P(A_1\cdots A_m)=P(A_1)P(A_2|A_1)\cdots P(A_m|A_{m-1}\cdots A_1)$

两个事件独立，指的是事件 $B$ 发生对事件 $A$ 的概率没有影响。也就是说 $A, B$ 独立等价于
$P(A|B)=P(A)\Leftrightarrow P(AB)=P(A)P(B)$
如果推广到多个事件，则 $A_1,\cdots,A_m$ 相互独立需要同时满足以下方程：
$\left\{ \begin{array}{l} P(A_iA_j)=P(A_i)P(A_j), &i<j,\\ P(A_iA_jA_k)=P(A_i)P(A_j)P(A_k),&i<j<k,\\ \cdots&\cdots\\ P(A_1A_2\cdots A_n)=P(A_1)P(A_2)\cdots P(A_n). \end{array} \right.$
即同时满足事件组中任意两个、三个直至 $n$ 个事件都是互相独立的。再推广到两个事件域 $\mathcal A_1,\mathcal A_2$ ，如果 $\forall A_1\in\mathcal A_1,A_2\in\mathcal A_2$ 都有 $A_1,A_2$ 独立，则称事件域 $\mathcal A_1,\mathcal A_2$ 独立。

随机变量 $X$ 是 $\Omega \mapsto \R$ 的一个映射，给定事件 $B\in\mathcal B$ ，这里 $\mathcal B$ 是 $\R$ 上所有左开右闭有限区间构成的集合，满足可测性条件
$X^{-1}(B)=\{\omega\in\Omega:X\in B\}\in\mathcal A$
随机变量 $X$ 在概率 $P$ 下的分布函数 $F_X(x)$ 定义为
$F_X(x)=P(\omega:X\le x),\quad x\in \R$
最常见的随机变量是离散随机变量与连续随机变量。离散随机变量可以用一个概率分布列表示，
$X\sim \left( \begin{array}{c} x_1&x_2&\cdots&x_N\\ p_1&p_2&\cdots&p_N \end{array} \right),\quad \sum_{i=1}^Np_i=1,N\le\infty$
连续随机变量可以用概率密度表示，记作 $X\sim p(x)$ ，概率密度 $p (x)$ 满足
$F(x)=\int_{-\infty}^x p(u) du,\quad x\in \R$
将随机变量整合就得到随机向量 $(X, Y)$ ，其分布函数定义为
$F_{X,Y}(x,y)=P(\omega:X\le x,Y\le y)$
记边际分布函数为
$F_X(x)=F_{X,Y}(x,\infty),\quad F_Y(y)=F_{X,Y}(\infty,y)$
联合分布可以唯一确定边际分布，但两个边际分布不能确定联合分布。

如果随机向量 $(X, Y)$ 是离散型的，则条件分布列为

$P_{Y|X}(y_j|x_i)=\frac{p_{ij}}{p_{i\cdot}},\quad P_{X|Y} (x_i|y_j)=\frac{p_{ij}}{p_{\cdot j}}$

相互独立等价于 $p_{ij}=p_{i\cdot}p_{\cdot j}$ 。
如果随机向量 $(X, Y)$ 是连续型的，则条件密度为
$p_{Y|X}(y|x)=\frac{p(x,y)}{p_X(x)},\quad p_{X|Y}=\frac{p(x,y)}{p_Y(y)}$
其中
$F_{X,Y}(x,y)=\int_{-\infty}^x\int_{-\infty}^y p(u,v)dudv,\quad x,y\in\R\\ p_X(x)=\int_{-\infty}^{\infty}p(x,y)dy,\quad p_Y(y)=\int_{-\infty}^\infty p(x,y)dx$
相互独立等价于
$p(x,y)=p_X(x)p_Y(y)$

对于随机变量 $X$ ，设其分布函数为 $F (x)$ ，密度函数为 $p (x)$ 或概率分布列为 $p_i$ ，则有以下数字特征：

期望

对于离散随机变量，如果 $\sum_{i=1}^N |x_i|p_i<\infty$ ，则期望为
$EX=\sum_{i=1}^N x_ip_i$

对于连续随机变量，如果 $\int_{-\infty}^\infty |x|p(x) dx<\infty$ ，则期望为
$EX=\int_{-\infty}^\infty xp(x)dx$
期望的表达式为
$EX=\int_{-\infty}^\infty xdF(x)$
对于随机变量函数 $f (X)$ ，其期望为
$Ef(X)=\int_{-\infty}^\infty f(x)dF(x)$
定义 $EX^k$ 为随机变量 $X$ 的 $k$ 阶矩。矩母函数 $G_X(t)$ 定义为
$G_X(t)=E(e^{tX})=\int_{-\infty}^\infty e^{tx}dF(x)$
矩母函数并不总是存在，但如果两个随机变量拥有有限且相同的矩母函数，则这两个随机变量同分布。
方差

对于随机变量 $X$ ，如果 $EX^2<\infty$ ，则定义方差为
$DX=E(X-EX)^2=EX^2-(EX)^2$
关于方差有一个切比雪夫不等式，为
$P(|X-EX|>\varepsilon)\le \frac{DX}{\varepsilon^2}$
如果令 $T = ∣ X - E X ∣$ ，则有
$P(T>\varepsilon)=P(T^2>\varepsilon^2)\le \frac{ET^2}{\varepsilon^2}\\ P(X>a)\le\frac{EX}{a},\quad X\ge 0,a>0$
得到马尔科夫不等式的形式，因此马尔科夫不等式可以用来证明切比雪夫不等式。
协方差

对于随机变量 $X, Y$ ，协方差与相关系数定义为
$Cov(X,Y)=E[(X-EX)(Y-EY)]=E(XY)-EXEY\\ \rho_{X,Y}=\frac{Cov(X,Y)}{\sqrt{DX\cdot DY}}\in[-1,1]$
如果两个随机变量协方差为0，则意味着两个随机变量相互独立；如果相关系数为 $\pm1$ ，则意味着两个随机变量之间存在线性关系。

多维随机向量的协方差矩阵定义为
$\boldsymbol \Sigma=(c_{ij})_{n\times n},\quad c_{ij}=Cov(X_i,X_j)$

与以上几种数字特征相关的计算公式如下：
$Y=aX+b\Rightarrow EY=aEX+b,DY=a^2DX;\\ E(X+Y)=EX+EY;\\ D(X+Y)=DX+DY+2Cov(X,Y);\\ Cov(aX,bY)=Cov(bY,aX)=abCov(X,Y);\\ Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z).$
在有了条件分布后可以类似定义条件期望，在绝对值有限的情况下，条件期望是
$E(Y|X=x)=\int_{-\infty}^\infty y dF_{Y|X}(y|x)$
对于连续情形，有
$E(Y|X)=\int_{-\infty}^\infty yp_{Y|X}(y|x)dy=\int_{-\infty}^\infty \frac{yp(x,y)}{p_X(x)}dy$
对于离散情形，有
$E(Y|X=x_i)=\sum_{j=1}^n yp_{ij}$
如果对于每一个 $x$ ， $E (Y ∣ X = x)$ 都存在且有限，则定义 $g (x) = E (Y ∣ X = x)$ ，类似定义 $g (X) = E (Y ∣ X)$ ，有全期望公式：
$E [E (Y ∣ X)] = E (g (X)) = E Y$

随机变量 $X$ 的特征函数被定义为
$\phi_X(t)=Ee^{itX}=\int_{-\infty}^\infty e^{itx}dF_X(x)，\quad t\in\R$
任何随机变量的特征函数都存在，且具有以下基本性质：

$\phi(0)=E(1)=1$ ；
$\forall t\in \R,|\phi(t)|\le1$ ；
$\phi(t)$ 在 $\R$ 上一致连续，且非负定；
如果对某个 $k\ge1$ 有 $EX^k<\infty$ ，那么 $\phi_X(t)$ 在 $t = 0$ 处 $k$ 次连续可微，且
$\phi_X^{(k)}(0)=i^k EX^k$
这可以用于求随机变量的 $k$ 阶矩；
如果 $X, Y$ 相互独立，则有
$\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t),\quad t\in \R$
给定两个随机变量 $X, Y$ ，它们分布函数相同当且仅当特征函数相同。

2.收敛与极限定理

几乎处处收敛：如果存在一个零概率事件 $\Omega_0$ ，使得对任意 $\omega\in\Omega-\Omega_0$ ，当 $n\to \infty$ 时有 $X_n(\omega)\to X(\omega)$ ，则称 $X_n$ 几乎处处收敛于 $X$ ，记作 $X_n\to X\text{ a.s.}$ 。这是所有收敛性中最强的一种。

依概率收敛：如果对任意 $\varepsilon>0$ ，有 $\lim \limits_{n\to \infty}P(\omega:|X_n(\omega)-X(\omega)|>\varepsilon)=0$ ，则称 $X_n$ 依概率收敛于 $X$ ，记作 $X_n\stackrel{P}{\longrightarrow}X$ 。依概率收敛比几乎处处收敛弱。

3.数学期望收敛定理

单调收敛定理：令 $(X_n,n\ge1)$ 是一列单调不减非负随机变量，即 $0\le X_n\le X_{n+1} \text{ a.s.}$ ，如果 $X_n\to X \text{ a.s.}$ ，那么 $\lim\limits_{n\to \infty}EX_n=EX$ ；如果 $(X_n,n\ge1)$ 是一列单调不增非负随机变量，即 $0\le X_{n+1}\le X_n\text{ a.s.}$ ，如果 $X_n\to X\text{ a.s.}$ 且 $EX_1<\infty$ ，则也有 $\lim\limits_{n\to \infty}EX_n=EX$ 。

Fatou引理：令 $(X_n,n\ge 1)$ 是一列单调非负随机变量，那么
$\lim_{n\to\infty }EX_n\ge E(\lim_{n\to \infty}X_n)$
控制收敛定理：令 $(X_n,n\ge 1)$ 是一列随机变量，假设存在一个随机变量 $Y$ 使得 $E|Y|<\infty$ ，并且 $|X_n|\le Y\text{ a.s.}$ ，如果 $X_n\to X\text{ a.s.}$ 或者 $X_n\stackrel P\to X$ ，那么
$\lim_{n\to \infty }EX_n=EX$