概率导论(Introduction to Probability, 2E)学习笔记 Part Ⅱ-CSDN博客

本文链接：https://blog.csdn.net/lavandejoey/article/details/123223540

笔记内容基于Introduction to Probablity, Second Edition

因笔者为初学者，故内容不会面面俱到

若有表述错误还望直接指出

——2022.3

离散随机变量

基础

随机变量是试验结果对应的实值函数。

随机变量函数定义了一个新的随机变量。

研究随机变量，可定义平均量，如均差、方差。

如果一个随机变量的值域是一个有限集合/可数多个的无限集合，则这个随机变量是离散随机变量。

离散随机变量有对应的分布列，用来表示每一个取值的概率。
离散随机变量的函数是一个离散随机变量，其分布列可从原随机变量分布列得出。

分布式

分布列：离散随机变量取值概率
e.g.随机变量 $X$ 有分布列 $p_X$ .
$p_X(x)=P(X=x)$

e.g.在抛掷一枚均匀硬币的两次试验中： $X$ 是正面朝上的次数：
$p_X(x)=\displaystyle\begin{cases}1/4, (x=0,2)\\1/2, (x=1)\\0\end{cases}$
对于分布列： $\displaystyle\sum_x p_X(x)=1$ , 同理： $P(X\in S)=\displaystyle\sum_{x\in S} p_X(x)$

伯努利随机变量

⭐伯努利型随机变量非常简洁：
$p_X(k)=\begin{cases}p, (k=1)\\1-p, (k=0)\end{cases}$
用于刻画只有两个试验结果的概率模型.

二项随机变量

将伯努利随机变量不断重复叠加。e.g.将一枚硬币抛掷 $n$ 次，正面出现概率为 $p$ , 出现正面的次数 $X$ ，就是一个二项随机变量。
对于 $X$ , 有：
$\displaystyle\sum_{k=0}^n\scriptstyle\left(\begin{gathered}n\\ k\end{gathered}\right)\displaystyle p^k(1-p)^{n-k}=1$

几何随机变量

$X$ 为连续抛掷一枚硬币，知道第一次出现正面的次数. $X$ 是一个几何随机变量.
$p_X(k)=(1-p)^{k-1}p, k=1,2,3\dots$

泊松随机变量

随机变量 $X$ 分布列：
$\displaystyle p_X(k)=e^{-\lambda}\frac{\lambda^k}{k!}, k=0,1,2,\dots$
$\lambda$ 是刻画分布列取正值的参数， $X$ 是泊松随机变量. 泊松随机变量 $X$ 的分布列是二项随机变量分布列很好的逼近：
$e^{-\lambda}\frac{\lambda^k}{k!}\approx\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}, k=0,1,2,\dots,n$
其中 $\lambda=np$ .

随机变量的函数

随机变量的函数本身也是一个随机变量：
$p_Y(y)=\sum_{\{x|g(x)=y\}}p_X(x)$

期望、均值、方差

$X$ 的分布列给出了所有 $X$ 的取值对应的概率，我们通过期望来代表随机变量 $X$ 的取值，数值上就是 $X$ 所有取值及其概率的加权平均：
$\text{E}[X]=\sum_x xp_X(x)$
这一数值也是分布列 $p_X$ 的重心。

方差、矩和随机变量的函数的期望规则

随机变量 $X$ 的 $n$ 阶矩 $\text{E}[X^n]$ 是 $X^n$ 的期望值，这样形式的均值本身就是一阶矩。

方差 $\text{var}(X)=\text{E}[(X-\text{E}[X])^2]$ , 方差提供了 $X$ 在期望周围分散程度的一个测度。
标准差是另一测度： $\sigma_X=\sqrt{\text{var}(X)}$ .

⭐标准差的量纲与 $X$ 相同，而标准差为原量纲的平方。

简化期望算法：
设随机变量 $X$ 分布列为 $p_X$ , 设 $g (X)$ 是 $X$ 的一个函数，则 $g (X)$ 的期望：
$\text{E}[g(X)]=\sum_x g(x)p_X(x)$
$X$ 的方差：
$\text{var}(X)=\text{E}[(X-\text{E}[X])^2]=\sum_x(x-\text{E}[X])^2p_X(x)$
其平方根为标准差.

均值和方差的性质

随机变量的线性函数均值和方差
对于随机变量 $X$ , 有 $Y = a X + b$ , 其中 $a, b$ 为给定的常数：
$\text{E}[Y]=a\text{E}[X]+b, \text{var}(Y)=a^2\text{var}(X)$
用矩表示方差： $\text{var}(X)=\text{E}[X^2]-(\text{E[X]})^2$
⭐仅当 $g (X)$ 是一个线性函数, $\text{E[g(X)]}=g(\text{E}[X])$

常用的随机变量的均值和方差

e.g.伯努利随机变量的均值和方差：抛掷一枚硬币，正面出现概率为 $p$ , 伯努利随机变量分布列为：
$p_X(k)=\begin{cases}p, k=1\\1-p, k=0\end{cases}$
则：
$\begin{array}{rcl}\text{E}[X]&=&1\cdot p+0\cdot(1-p)=p\\\text{E}[X^2]&=&1^2\cdot p+0^2\cdot(1-p)=p\\\text{var}(X)&=&E[X^2]-(\text{E}[X])^2=p-p^2=p(1-p)\end{array}$

e.g.离散均匀随机变量：抛掷六面均匀的骰子，其分布列为：
$p_X(k)=\begin{cases}1/6, k=1,2,3,4,5,6\\0, \end{cases}$
$\because$ 分布列相对于3.5对称， $\therefore \text{E}[X]=3.5$
$\begin{array}{rcl}\text{var}(X)&=&\text{E}[X^2]-(\text{E}[X])^2\\\\&=&\displaystyle\frac{1}{6}(1^2+2^2+3^2+4^2+5^2+6^2)-(3.5)^2\\\\&=&\displaystyle\frac{35}{12}\end{array}$

离散均匀随机变量由一般到特殊. 当离散均匀随机变量 $X$ 有值域 $[a, b]$ 且取每个整数的概率都相等，它的分布列为:
$p_X(k)=\begin{cases}\displaystyle\frac{1}{b-a+1}, k=a,a+1,a+2,\dots,b\\0, \end{cases}$
均值为 $\text{E}[X]=\displaystyle\frac{a+b}{2}$
设 $a = 1, b = n$ , 则：
$\text{E}[X^2]=\frac{1}{n}\sum_{k=1}^n k^2=\frac{1}{6}(n+1)(2n+1)$
$X$ 的方差：
$\begin{array}{rcl} \text{var}(X)&=&\text{E}[X^2]-(\text{E}[X])^2\\\\ &=&\displaystyle\frac{1}{6}(n+1)(2n+1)-\displaystyle\frac{1}{4}(n+1)^2\\\\ &=&\displaystyle\frac{n^2-1}{12} \end{array}$
对于一般情况，区间 $[a, b]$ 均匀分布平移可以得到区间 $[1, b - a + 1]$ . 因此, 一般的, $X$ 的方差只需将上述等式中 $n$ 替换为 $b - a + 1$ 即可：
$\text{var}(X)=\displaystyle\frac{(b-a+1)^2-1}{12}=\frac{(b-a)(b-a+2)}{12}$

e.g.泊松随机变量的均值: 设 $X$ 的分布列为泊松分布列：
$p_X(k)=e^{-\lambda}\frac{\lambda^k}{K!}, k=0,1,2,\dots$
当 $\lambda>0$ 为常数：
$\begin{array}{rcl} \text{E}[X]&=&\displaystyle\sum_{k=0}^\infin ke^{-\lambda}\frac{\lambda^k}{k!}\\ &=&0+\displaystyle\sum_{k=1}^\infin ke^{-\lambda}\frac{\lambda^k}{k!}\\ &=&\lambda\displaystyle\sum_{k=1}^\infin e^{-\lambda}\frac{\lambda^{k-1}}{(k-1)!}\\ &=&\lambda\displaystyle\sum_{k=0}^\infin e^{-\lambda}\frac{\lambda^m}{m!} {\text{(利用归一化性质}\text{set }m=k-1)}\\ &=&\lambda \end{array}$

多个随机变量的联合分布列

e.g.一个双随机变量 $X, Y$ 的事件, 有他们的联合分布列：
$p_{X,Y}(x,y)=P(X=x,Y=y)$
也可以表达为 $P(\{X=x\}\cap\{Y=y\})$ . 设 $A$ 是一组 $(x, y)$ 的集合，则：
$P((X,Y)\in A)=\sum_{(X,Y)\in A}p_{X,Y}(x,y)$
两个边缘分布列 $p_X(x), p_Y(y)$ 可由联合分布列计算得到：
$p_X(x)=\sum_yp_{ X,Y}(x,y), p_Y(y)=\sum_xp_{X,Y}(x,y)$

多个随机变量的函数

确定一个新的随机变量 $Z = g (X, Y)$ , 通过联合分布列可以计算它的分布列
$p_Z(z)=\sum_{\{(x,y)|g(x,y)=z\}}p_{X,Y}(x,y)$
推广：
$\text{E}[g(X,Y)]=\sum_x\sum_yg(x,y)p_{X,Y}(x,y)$

当给定常数 $a, b, c$ , $g (x, y) = a X + b Y + c$ 时：
$\text{E}[aX+bY+c]=a\text{E}[X]+b\text{E}[Y]+c$

多随机变量的情况

由两个随机变量及其联合分布列，推出三随机变量及其联合分布列：
$p_{X,Y,Z}(x,y,z)=P(X=x,Y=y,Z=z)$
相应的有边缘分布列：
$p_X(x)=\sum_y\sum_zp_{X,Y,Z}(x,y,z)\\p_Y(y)=\sum_z\sum_xp_{X,Y,Z}(x,y,z)\\p_Z(z)=\sum_x\sum_yp_{X,Y,Z}(x,y,z)$
三变量期望：
$\text{E}[g(X,Y,Z)]=\sum_x\sum_y\sum_zg(x,y,z)p_{X,Y,Z}(x,y,z)$
当给定常数 $a, b, c, d$ 的线性函数, $g (x, y, z) = a X + b Y + c Z + d$ 时：
$\text{E}[aX+bY+cZ+d]=a\text{E}[X]+b\text{E}[Y]+c\text{E}[Z]+d$

因此， $a_1,a_2,a_3,\dots,a_n$ 是常数，多随机变量 $X_1,X_2,X_3,\dots,X_n$ 应有：
$\begin{array}{rl} &\text{E}[a_1X_1+a_2X_2+a_3X_3+\dots+a_nX_n]\\ =&a_1\text{E}[X_1]+a_2\text{E}[X_2]+a_3\text{E}[X_3]+\dots+a_n\text{E}[X_n]\\ =&\displaystyle\sum_{i=1}^na_i\text{E}[X_i] \end{array}$

e.g.帽子问题：假设一共有 $n$ 人，将他们的帽子放在一个盒子里，每个人随机从中拿起一个帽子(每人只拿一个帽子，且人与帽子的各种对应都是等可能的).拿回自己帽子的人数的平均数是多少？
对于每个人 $i$ , 如能拿到自己的帽子，定义 $X_i=1$ , 反之 $X_i=0$ .
由于 $P(X_i=1)=\frac{1}{n}$ 和 $P(X_i=0)=1-\frac{1}{n}$ , $X_i$ 的平均值为：
$\text{E}[X_i]=1\cdot\frac{1}{n}+0\cdot(1-\frac{1}{n})=\frac{1}{n}\\\text{由: }X=X_1+X_2+\cdots+X_n\\\text{E}[X]=\text{E}[X_1]+\text{E}[X_2]+\text{E}[X_3]+\cdots+\text{E}[X_n]=n\cdot\frac{1}{n}=1$

条件

某个事件发生的条件下的随机变量

对于事件 $A$ 发生的条件下, 随机变量 $X$ 的条件分布列:
$p_{X|A}(x)=P(X=x|A)=\frac{P({X=x}\cap A)}{P(A)}$
对于不同的 $x$ , ${X=x}\cap A$ 是互不相容的事件，并为 $A$ ：
$P(A)=\sum_xP({X=x}\cap A)$
综上：
$\sum_xp_{X|A}(x)=1$

给定另一个随机变量的值的条件下的随机变量

设 $X, Y$ 为某一试验中的两个随机变量

在 $Y = y$ 的条件下 $X$ 条件分布列与联合分布列：
$p_{X|Y}(x|y)=P(X=x|Y_y)=\frac{P(X=x,Y=y)}{P(Y=y)}=\frac{p_{X,Y}(x,y)}{p_Y(y)}$
$p_{X,Y}(x,y)=p_Y(y)p_{X|Y}(x|y)$
也可用于计算 $X$ 的边缘分布列：
$p_X(x)=\sum_yp_Y(y)p_{X|Y}(x|y)$

条件期望

设 $X, Y$ 为某一试验中的两个随机变量

对于事件 $A$ ， $P (A) > 0$ . 随机变量 $X$ 在给定的 $A$ 的条件下：
$\text{E}[X|A]=\sum_xxp_{X|A}(x)$
对于函数 $g (X)$ : $\text{E}[g(X)|A]=\sum_xg(x)p_{X|A}(x)$
在给定 $Y = y$ 条件下 $X$ 的调价期望：
$\text{E}[X|Y=y]=\sum_xxp_{X|Y}(x|y)$
给定 $A_i(i\in[1,n])$ 是互不相容事件并且形成样本空间的一个分割，假定 $P(A_i)>0$ :
$\text{E}[X]=\sum_{i=1}^nP(A_i)\text{E}[X|A_i]$
假定事件 $B$ 满足 $P(A_i\cap B)>0$ :
$\text{E}[X|B]=\sum_{i=1}^nP(A_i|B)\text{E}[X|A_i\cap B]$
综上： $\text{E}[X]=\sum_yp_Y(y)\text{E}[X|Y=y]$
全期望定理：无条件平均可以通过条件平均再求平均得到

独立性

$A, B$ 独立意味着 $A$ 的取值不会为 $X$ 的取值提供信息。

随机变量与事件的相互独立性

随机变量 $X$ 独立于事件 $A$ 是指：
对所有 $x$ 的取值
$P(X=x\cup A)=P(X=x)P(A)=p_X(x)P(A)$
也就是
$p_{X|A}(x)=p_X(x)\,(\text{when }P(A)>0)$

随机变量之间的相互独立性

随机变量 $X$ 独立于随机变量 $Y$ 是指：
对所有 $x$ 和 $y$ 的取值
$p_{X,Y}(x,y)=p_X(x)p_Y(y)$
由此可知, 对所有 $x$ ：
$p_{X|Y}(x|y)=p_X(x)\,(\text{when }p_Y(y)>0)$

若 $X$ ， $Y$ 相互独立： $\text{E}[XY]=\text{E}[X]\text{E}[Y]$
对于任意函数 $g$ , $h$ : $\text{E}[g(X)h(Y)]=\text{E}[g(X)]\text{E}[h(Y)]$
若 $X$ ， $Y$ 相互独立: $\text{var}(X+Y)=\text{var}(X)+\text{var}(Y)$