概率论与数理统计_概率论与数理统计csdn-CSDN博客

本文链接：https://blog.csdn.net/weixin_43539779/article/details/108881725

测度空间与概率空间的对应关系

测度空间： $(X,F,\mu )$ ，集合X，X上的 $\sigma$ -代数F， (X,F) 为可测空间，测度 $\mu$

概率空间： $(\Omega ,F,P)$ ，样本空间 $\Omega$ ，事件域F，测度P

可测函数与随机变量的对应关系

可测函数：从可测空间 (X,F) 到 $(R,B_{R})$ 的可测映射，即 $B_{R}$ 中的任何一个集合在该映射下的原像都属于F（都是X上的可测集）

随机变量：从样本空间 $\Omega$ 到实数轴R的映射。事件域F中的基本事件映射到实数轴上的基本区间，基本事件经过运算生成的复杂事件，映射到实数轴上就是实数轴上Borel $\sigma$ -代数中的集合。有了这个对应关系，要度量“事件发生的可能性的大小”（即概率测度），只要度量“实数轴上Borel $\sigma$ -代数中的集合” 就可以了。

随机变量的测度论语言定义：设 $(\Omega ,F,P)$ 为概率测度空间，若对实数轴上Borel $\sigma$ -代数中的任一集合（称为Borel集）B，都有, $\left \{ \omega \in \Omega :X(\omega )\in B \right \}\in F$ ，则称 $X(\omega )$ 为随机变量，也简记为X。

总之，随机变量就是建立了“随机事件”到“实数轴上Borel $\sigma$ -代数”的一种对应，并且保证了建立了这种对应的随机事件都是可以定义概率测度的。换言之，随机变量的测度P是继承自实数轴上Borel $\sigma$ -代数的某个测度 $\mu$ 的。

既然随机事件 $\left \{ \omega \in \Omega :X(\omega )\in B \right \}$ 属于F，那么可以有概率（测度），即 $P\left \{ \omega \in \Omega :X(\omega )\in B \right \}$ 是有意义的，为了简单，概率中就记 $P\left \{ \omega \in \Omega :X(\omega )\in B \right \}=P\left \{X\in B \right \}$ 。

特别地，若取 $B=(-\infty,x]$ , 则事件 $\left \{ X\in B \right \}$ 的概率 $P\left \{ X\in B \right \}=P\left \{ X\leq x \right \}:=F(x)$ 就定义成随机变量X的分布函数。

进而，对任意的区间 (a,b] , 都可表示成 F(b)-F(a)

进而，由这样的区间经过至多可列次交、并、差运算的复杂的实数轴上的Borel集都可以用F(x)给出其概率。

随机变量序列 $\left \{ X_{n} \right \}_{n\in N}$ 的收敛性

几乎处处收敛
依概率收敛
依分布收敛
平方平均收敛与 $L^{p}$ 收敛

几乎处处收敛（依概率1收敛）： $X_{n}\overset{a.s.}{\rightarrow}X$ 或 $P(\lim_{n\rightarrow \infty}X_{n}=X)=1$

与函数逐点收敛的定义类似，由于随机变量的本质为样本空间 $\Omega$ 到取值空间上的函数，因此，给定一个概率空间 $(\Omega ,F,P)$ ，中的一列随机变量 $\left \{ X_{n} \right \}_{n\in N}$ ，考虑事件： $A_{X}=\left \{ \omega : \lim_{n\rightarrow \infty}X_{n}(\omega )=X(\omega ) \right \}$ ，如果存在一个随机变量使得事件 $A_{X}$ 的概率为1，那么就称随机变量序列 $\left \{ X_{n} \right \}_{n\in N}$ 依概率1收敛到X，或称 $\left \{ X_{n} \right \}_{n\in N}$ 几乎处处收敛到X

当取值空间是一般的实数空间R时，依概率1收敛的意义是：

对于任意的正实数 $\varepsilon >0$ ， $P(\lim_{n\rightarrow \infty}inf\left \{ \omega \in \Omega :|X_{n}(\omega )-X(\omega)|< \varepsilon \right \})=1$

$P(\lim_{n\rightarrow \infty}\underset{\varepsilon>0}{inf}\left \{ \omega \in \Omega :\left | X_{n}(\omega )-X(\omega ) \right |<\varepsilon \right \})=1$

当空间是度量空间 (S,d) 时，依概率1收敛的意义是：

$P(\omega \in \Omega :d(X_{n}(\omega ),X(\omega ) )\underset{n\rightarrow \infty}{\rightarrow}0)=1$

依概率收敛（P-收敛）：对于任意的正实数 $\varepsilon >0$ ， $\lim_{n\rightarrow \infty}P(|X-X_{n}|\geq \varepsilon )=0$ ，记作 $X_{n}\overset{P}{\rightarrow}X$

依概率收敛和依概率1收敛的定义有相似之处，但本质上，依概率1收敛是比依概率收敛更强的收敛性质。

如果一列随机变量依概率1收敛到某个极限，那么它必然也依概率收敛到这个极限，但反之则不然。

反例（From wiki）：设概率空间

$X_{1}=1_{\left \{ \omega \in [0,1) \right \}}=1$ ，

$X_{2}=1_{\left \{ \omega \in [0,\frac{1}{2}) \right \}}$ ， $X_{3}=1_{\left \{ \omega \in [\frac{1}{2},1) \right \}}$

$X_{4}=1_{\left \{ \omega \in [0,\frac{1}{4}) \right \}}$ ， $X_{5}=1_{\left \{ \omega \in [\frac{1}{4},\frac{1}{2}) \right \}}$ ， $X_{6}=1_{\left \{ \omega \in [\frac{1}{2},\frac{3}{4}) \right \}}$ ，...

...

随机变量序列的通项为： $X_{2^{m}+k}=1_{\left \{ \omega \in [\frac{k}{2^{m}},\frac{k+1}{2^{m}}) \right \}},0\leq k\leq 2^{m}-1,m\geq 0$

一点自己的想法：

设 $A_{n}^{\varepsilon }=\left \{ \omega:|X_{n}(\omega)-X(\omega)|\geq \varepsilon \right \}$ ， $A=\left \{ \omega :\lim_{n\rightarrow \infty} X_{n}(\omega )=X(\omega ) \right \}$ ，

则有 $A=\bigcap _{\varepsilon >0}\bigcup _{k\geq 0}\bigcap _{n\geq k}\left (A_{n}^{\varepsilon } \right )^{c}$ ， $A^{c}=(\bigcap _{\varepsilon >0}\bigcup _{k\geq 0}\bigcap _{n\geq k}\left (A_{n}^{\varepsilon } \right )^{c})^{c}=\bigcup _{\varepsilon >0}\bigcap _{k\geq 0}\bigcup _{n\geq k}A_{n}^{\varepsilon }$

依概率1收敛要求 $\forall \varepsilon >0$ ，当 $n\rightarrow \infty$ 时， $P(A_{n}^{\varepsilon })\rightarrow 0$ （这一条件仅仅是对一列集合的大小的度量，只涉及到随机变量列中元素各自的性质，不涉及到序列中不同随机变量之间的相关性）

依概率收敛要求 $\forall \varepsilon >0$ ，当 $n\rightarrow \infty$ 时， $P(\bigcup_{k\geq 0} \bigcap_{n\geq k} (A_{n}^{\varepsilon })^{c})=1$ （这一条件涉及到集合列的下极限，会考虑到不同随机变量之间的关系）

依分布收敛：对所有的a，都有 $P(X_{n}\leq a)\rightarrow P(X\leq a)$

（不要求查看每一个 $\omega$ ，只要求序列的分布趋向于某个极限）

更严格的定义是探讨随机变量 $X_{n}$ 的累积分布函数 $F_{n}(x)=P(X_{n}\leq x)$

设有实值的随机变量序列 $\left \{ X_{n} \right \}_{n\in N}$ 和某个随机变量X（其累积分布函数为 F(x) ），如果对 F(x) 的每个连续点x，都有 $\lim_{n\rightarrow \infty}F_{n}(x)=F(x)$ ，那么就说随机变量序列 $\left \{ X_{n} \right \}_{n\in N}$ 依分布收敛到某个随机变量X，

记作： $X_{n}\xrightarrow[n\rightarrow \infty]{D}X$ 或 $X_{n}\xrightarrow[n\rightarrow \infty]{d}X$ 或 $X_{n}\xrightarrow[n\rightarrow \infty]{L}X$

由于依分布收敛只和随机变量的分布相关，所以也可以称一系列随机变量（依分布）收敛于某个分布。

设 $L_{X}$ 是极限X的分布，那么依分布收敛也可以记作： $X_n\overset{d}{\rightarrow}L_{X}$

例如一个随机变量序列 $\left \{ X_{n} \right \}_{n\in N}$ 分布收敛到标准正态分布，就可以记作：

$X_{n}\overset{d}{\rightarrow}N(0,1)$

平方平均收敛与 $L^{p}$ 收敛：

测度论：如果两个函数和满足 $\int_{I}(f-g)^{2}d\mu =0$ ，那么这两个函数在关于测度 $\mu$ 的平方可积空间中相等。

随机变量的平方平均收敛与此类似：

如果对平方可积的随机变量序列 $\left \{ X_{n} \right \}_{n\in N}$ ，存在随机变量X，使得 $\lim_{n\rightarrow \infty}E[(X_{n}-X)^{2}]=0$ ，则称序列 $\left \{ X_{n} \right \}_{n\in N}$ 平方平均收敛到X，记作： $X_{n}\overset{L^{2}}{\rightarrow}X$

对于更一般的 $L^{p}$ 空间，也有类似的定义：如果对 $L^{p}$ 空间中的随机变量序列 $\left \{ X_{n} \right \}_{n\in N}$ ，存在 $L^{p}$ 中的随机变量X，使得 $\lim_{n\rightarrow \infty}E[(X_{n}-X)^{p}]=0$ ，则称序列 $\left \{ X_{n} \right \}_{n\in N}$ $L^{p}$ 收敛到X，记作： $X_{n}\overset{L^{p}}{\rightarrow}X$

当p=1时，称为平均收敛。

大数定律与中心极限定理

弱大数定律（辛钦定理）：样本均值依概率收敛于期望值。

$\overline{X_{n}}\overset{P}{\rightarrow}\mu , n\rightarrow \infty$

$\forall \varepsilon >0, \lim_{n\rightarrow \infty}P(|\overline{X_{n}}-\mu |>\varepsilon )=0$

强大数定律：样本均值依概率1收敛于期望值

$\overline{X_{n}}\overset{a.s.}{\rightarrow}\mu , n\rightarrow \infty$

$\lim_{n\rightarrow \infty}P(\overline{X_{n}}=\mu )=1$

中心极限定理：

大数定律中的收敛性就是X为常数时，随机变量序列 $\left \{ X_{n} \right \}_{n\in N}$ 的依概率收敛

中心极限定理中的收敛性就是依分布收敛

相合估计

随着样本量n的增大，基于参数函数的估计量的渐进性质

设 $\psi (X_{1},X_{2},...,X_{n})$ 为 $g(\theta )$ 的基于样本 $(X_{1},X_{2},...,X_{n})^{T}$ 的一个估计量，显然，该估计量依赖于样本量n，为了表示这种依赖性，我们可以记为 $\psi _{n}$ 。

当样本容量无限增加的时候，它能够依照某种意义收敛到真实参数。

相合：任何固定的 $\theta \in \Theta$ ，任意给定的 $\varepsilon >0$ ，有 $\lim_{n\rightarrow +\infty}P_{\theta }(|\psi _{n}-g(\theta))|>\varepsilon )=0$

强相合：任何固定的 $\theta \in \Theta$ ，有 $P_{\theta }(\lim_{n\rightarrow +\infty}\psi _{n}=g(\theta))=1$

相合估计表明统计量对应的随机变量序列 $\left \{ \varphi _{n} \right \}$ 依概率收敛于参数函数 $g(\theta )$

强相合估计表明统计量对应的随机变量序列 $\left \{ \varphi _{n} \right \}$ 几乎处处收敛于参数函数 $g(\theta )$

注意相合与大数定律的联系：

大数定律给出的是：当选取特定的统计量序列 $\left \{ \varphi _{n} \right \}$ = $\left \{ \overline{X}_{n} \right \}$ 以及特定的参数 $\mu =EX$ 时，自然满足相合性。相当于给出了相合估计的一个例子。
此外，我们通过将统计量转化成大数定律所满足的形式来证明我们获得的统计量序列 $\left \{ \varphi _{n} \right \}$ 的相合性或强相合性。在这种意义下，大数定律变成了我们证明相合性的一个工具。

注意相合与无偏的区别：

无偏性要求 $E\varphi _{n}=\theta$ ，每次试验的样本量n是固定的，变的是试验次数。而相合性的样本量n是变化的。
无偏性是对特定的n而言的性质，与n趋于无穷时的渐进性质无关，不涉及极限的运算，也不涉及随机变量序列中元素与元素的相互关系，而相合性会考虑到相互关系。
相合但是不无偏的例子： $\frac{\sum (\widetilde{X}-X_{i})^{2}}{n}$
无偏但是不相合的例子：以正态分布 $N(\mu ,\sigma ^{2})$ 的均值为待估参数，取 $\varphi _{n}=X_{i}$ ，即你只用一个，就算有无数个样本也还是用一个，不概率收敛