概率论各种基础分布期望和方差推导过程汇总

Aerozeor

已于 2024-12-13 11:27:33 修改

阅读量3.5w

点赞数 65

文章标签：概率论数学算法概率分布

于 2019-06-24 00:08:16 首次发布

本文链接：https://blog.csdn.net/weixin_40839812/article/details/93415972

版权

本文用 $E[\cdot]$ 、 $D[\cdot]$ 来表示期望和方差

离散随机变量分布

一、0-1分布或伯努利分布

考虑抛掷一枚硬币，设正面向上的概率为 $p$ ，反面向上的概率为 $1 - p$ 。伯努利随机变量 $X$ 在试验结果为正面向上时取值为 $1$ ，在试验结果为反面向上时取值为 $0$ 。
记为 $X$ ~ $B (1, p)$ ， $X$ 的分布为
$P(X=x)=\begin{cases}p & x=1\\1-p & x=0\end{cases}$
$E [X] = p * 1 + (1 - p) * 0 = p$

显然 $E[X^2]=0^2*(1-p)+1^2*p=p$

$D[X]=E[X^2]-E[X]^2=p-p^2=p(1-p)$

二、二项分布

将一枚硬币抛掷 n 次，每次抛掷, 正面出现的概率为 $p$ ，反面出现的概率为 $1 - p$ ，而且各次抛掷是相互独立的。令 $X$ 为 n 次抛掷得到正面的次数。我们称 $X$ 为二项随机变量。其参数为 n 和 $p$ 。
记为 $X$ ~ $B (n, p)$ ， $X$ 的分布为 $P(X=k)=C_n^kp^k(1-p)^{1-k}\quad (k\le n,k\in Z,C_n^k=\dfrac{n!}{k!(n-k)!})$

可认为 $X=X_1+X_2+\cdots +X_n$ ， $X_i$ ~ $B (1, p)$

$E[X]=E[X_1+X_2+\cdots +X_n]=\sum\limits^n_{i=1}E[X_i]=np$
$D[X]=D[\sum\limits^n_{i=1}X_i]=\sum\limits^n_{i=1}D[X_i]=np(1-p)$

与二项分布相关的还有几何分布和超几何分布，超几何分布直接百度百科有。

几何分布

在伯努利试验中直到第 $k$ 次试验才成功的分布。
记为 $X$ ~ $G (p)$ ， $X$ 的分布为 $P(X=k)=(1-p)^{k-1}p\quad (1\le k,k\in Z)$
其期望
$E[X]=\lim\limits_{n\to \infty}\sum\limits_{k=1}^n(1-p)^{k-1}pk=p\cdot \lim\limits_{n\to \infty}\sum\limits_{k=1}^n(1-p)^{k-1}k$
$=p\cdot \lim\limits_{n\to \infty}\dfrac{1}{(1-p)-1}\left[(1-p)^n\cdot n +\sum\limits_{k=1}^{n-1}(1-p)^{k}[(k-1)-k]-(1-p)^0\cdot 1\right]$
$=\lim\limits_{n\to \infty}(-1)\left[(1-p)^n\cdot n -\dfrac{(1-p)^n-(1-p)}{1-p-1}-1\right]$
$=\lim\limits_{n\to \infty}\left[1+\dfrac{(1-p)}{p}-\dfrac{(1-p)^n}{p}-(1-p)^n\cdot n \right]$
$=\dfrac{1}{p}-\lim\limits_{n\to \infty}(1-p)^n\left[\dfrac{1+pn}{p}\right]$
又，指数比负幂收敛更快，所以
$E[X]=\dfrac{1}{p}-0=\dfrac{1}{p}$
类似如上所示，计算方差的无穷级数非常麻烦，这里给出《概率导论》提到的算法，涉及的条件期望概念可以在下面找到
假设第一次就成功，则有
$E[X|X=1]=1,\quad E[X^2|X=1]=1$
若第一次没有成功，则视为浪费了一次机会
$E[X|X>1]=E[1+X]=1+E[X],\quad E[X^2|X>1]=E[(1+X)^2]=1+2E[X]+E[X^2]$
所以 $E [X] = P (X = 1) E [X ∣ X = 1] + P (X > 1) E [X ∣ X > 1]$
$=p\cdot 1+(1-p)(1+E[X])$
解得 $E[X]=\dfrac{1}{p}$
且
$E[X^2]=P(X=1)E[X^2|X=1]+P(X>1)E[X^2|X>1]$
$=p\cdot 1+(1-p)(1+2E[X]+E[X^2])]$
即 $E[X^2]=\dfrac{1+2(1-p)E[X]}{p}=\dfrac{2}{p^2}-\dfrac{1}{p}$
$D[X]=E[X^2]-E[X]^2=\dfrac{2}{p^2}-\dfrac{1}{p}-\dfrac{1}{p^2}=\dfrac{1-p}{p^2}$

三、泊松分布

记为 $X$ ~ $\pi(\lambda)$ 或 $X$ ~ $P(\lambda)$ ， $X$ 的分布为
$P(X=k)=\dfrac{\lambda ^k}{k!}e^{-\lambda}\quad (k\in Z)$
$E[X]=\sum\limits^{\infty}_{k=0}k\dfrac{\lambda ^k}{k!}e^{-\lambda}=0\dfrac{\lambda ^0}{0!}e^{-\lambda}+\lambda e^{-\lambda}\sum\limits^{\infty}_{k-1=0}\dfrac{\lambda ^{k-1}}{(k-1)!}=\lambda e^{-\lambda}e^{\lambda}=\lambda$

注释

$e^x$ 的麦克劳林展开式为 $e^x=1+x+\dfrac{x^2}{2!}+…+\dfrac{x^n}{n!}+…=\sum\limits^\infty_{n=0}\dfrac{x^n}{n!}$

同时 $E[X(X-1)]=\sum\limits^{\infty}_{k=0}k(k-1)\dfrac{\lambda ^k}{k!}e^{-\lambda}=\lambda^2$
所以 $E[X^2]=E[X(X-1)+X]=E[X(X-1)]+E[X]=\lambda^2+\lambda$

$D[X]=E[X^2]-E[X]^2=\lambda^2+\lambda-\lambda^2=\lambda$

连续随机变量分布

四、均匀分布

考虑取值于区间 $[a, b]$ 上的随机变量.我们假定 $X$ 取值于 $[a, b]$ 的任意两个长度相同的子区间的概率是相同的。这种随机变量称为具有均匀分布的随机变量。
记为 $X$ ~ $U (a, b)$ ， $X$ 的概率密度为 $f(x)=\begin{cases}\dfrac{1}{b-a} &x\in[a,b]\\0 &others\end{cases}\quad (a,b\in R)$
$E[X]=\int\limits^{\infty}_{-\infty}xf(x)dx=\int\limits^b_a\dfrac{x}{b-a}dx=\dfrac{a+b}{2}$
$D[X]=E[X^2]-E[X]^2=\int\limits^{\infty}_{-\infty}x^2f(x)dx-(\dfrac{a+b}{2})^2=\dfrac{(b-a)^2}{12}$

五、指数分布

记为 $X$ ~ $E(\theta)$ ， $X$ 的概率密度为
$f(x)=\begin{cases}\dfrac{1}{\theta } e^{-x/\theta }&x> 0\\0 &x\le0\end{cases}\quad (\theta>0)$
（这是其中一种形式，还有形式有 $f(x)=\begin{cases}\lambda e^{-\lambda x }&x> 0\\0 &x\le0\end{cases}$ 的等等）
$E[X]=\int\limits^{\infty}_{-\infty}xf(x)dx$
$=\int\limits^{\infty}_{0}x\dfrac{1}{\theta } e^{-x/\theta }dx$
$=\Big[\dfrac{1}{\theta }x(-\theta)e^{-x/\theta }-\int \dfrac{1}{\theta } (-\theta)e^{-x/\theta }dx\Big]^{\infty}_{0}$
$=\Big[ -xe^{-x/\theta } -\theta e^{-x/\theta } \Big]^{\infty}_{0}$
$=\theta$

同理 $E[X^2]=\int\limits^{\infty}_{-\infty}x^2f(x)dx=2\theta^2$

$D[X]=E[X^2]-E[X]^2=2\theta^2-\theta^2=\theta^2$

六、正态/高斯分布

记为 $X$ ~ $N(\mu,\sigma^2)$ ， $X$ 的概率密度为
$f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\dfrac{(x-\mu)^2}{2\sigma^2}}$
设 $Z=\dfrac{X-\mu}{\sigma}\therefore Z\sim N(0,1)$
容易知道 $E [Z] = 0$ , $D [Z] = 1$
由 $X=\mu+\sigma Z$
$E[X]=E[\mu+\sigma Z]=\mu$
$D[X]=D[\mu+\sigma Z]=\sigma^2$
但是事实上用定义来做也能得出这个结果

常用结论

$\dfrac{\overline X-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$ 证明在下面样本均值模块

抽样统计量分布

七、抽样分布(1) 样本均值

我们假定 $X_1,X_2,\cdots ,X_n$ 为独立同分布的正态随机变量（但事实上 $X_i$ 属于何种分布不影响 $\overline X$ 的期望和方差），其均值为 $\mu$ , 方差为 $\sigma^2$ 。我们将这些变量得到的平均值称为样本均值 $\overline X$ 。
有 $\overline X \sim N(\mu,\sigma^2/n)$ 。我们通常定义 $\overline X=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i,\quad X_i\sim N(\mu,\sigma^2)$
$E[\overline X]=E[\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i]=\dfrac{1}{n}\sum\limits_{i=1}^{n}E[X_i]=\dfrac{n\mu}{n}=\mu$
$D[\overline X]=D[\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i]=(\dfrac{1}{n})^2\sum\limits_{i=1}^{n}D[X_i]=\dfrac{n\sigma^2}{n^2}=\sigma^2/n$

注释

以下证明 $\overline X \sim N(\mu,\sigma^2/n)$
当 $X\sim N(\mu_x,\sigma^2_x),Y\sim N(\mu_y,\sigma^2_y)$ 且 $X, Y$ 独立时,则 $a X + bY$ (a,b为不全为0的系数)也遵循正态分布, $\sim N(a\mu_x+b\mu_y,a^2\sigma_x^2+b^2\sigma^2_y)$
所以 $\overline X=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i \sim N(\dfrac{1}{n}\sum\limits_{i=1}^{n}\mu_i,\dfrac{1}{n^2}\sum\limits_{i=1}^{n}\sigma^2_i)=N(\mu,\sigma^2/n)$

八、抽样分布(2) 样本方差

记为 $S^2$ ，我们通常定义 $S^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline X)^2,\quad X_i\sim N(\mu,\sigma^2)$
$E[S^2]=E[\dfrac{1}{n-1}((\sum\limits_{i=1}^{n}X_i^2)-n\overline X^2)]$
$=\dfrac{1}{n-1}[(\sum\limits_{i=1}^{n}E[X_i^2])-nE[\overline X^2]]$
$=\dfrac{1}{n-1}[(\sum\limits_{i=1}^{n}\sigma^2+\mu^2)-n(\sigma^2/n+\mu^2)]$
$=\sigma^2$

实际上在下面卡方分布提到对 $S^2$ 有 $\dfrac{(n-1)S^2}{\sigma^2}=\sum\limits_{i=1}^{n}(\dfrac{X_i-\overline X}{\sigma})^2 \sim \chi^2(n-1)$
所以 $2(n-1)=D[\dfrac{(n-1)S^2}{\sigma^2}]=\dfrac{(n-1)^2}{\sigma^4}D[S^2]$ ,即

$D[S^2]=\dfrac{2\sigma^4}{n-1}$

反过来想，有 $\dfrac{1}{n}E[\sum\limits_{i=1}^{n}(X_i-\overline X)^2]$
$=\dfrac{n-1}{n}E[\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline X)^2]$
$=\dfrac{n-1}{n}E[S^2]$ $=\dfrac{n-1}{n}\sigma^2$
所以用均方误差来估计样本方差是一种有偏估计

九、抽样分布(3) 卡方分布

卡方分布用来处理与随机变量平方和有关的统计量，比如样本方差
记为 $\chi^2\sim \chi^2(n)$ ， $\chi^2$ 的定义为
$\chi^2(n)=\sum\limits^n_{i=1}X_i^2,\quad X_i\sim N(0,1)$

$E[X_i^2]=E[(X_i-0)^2]=D[X_i]=1$

$E[\chi^2]=E[\sum\limits^n_{i=1}X_i^2]=n$

$D[X_i^2]=E[X^4_i]-E[X_i^2]^2=3-1=2$

$D[\chi^2]=D[\sum\limits^n_{i=1}X_i^2]=2n$

注释

对于变量 $X\sim N(0,1)$ 有 $E[X^4]=3$ , 证明用 $E[g(X)]=\int\limits^{\infty}_{-\infty}g(x)f(x)dx$ 方法,也可以看最下面的解释

常用结论

若 $X_i\sim N(\mu,\sigma^2)$ 则
1. $\sum\limits^n_{i=1}(\dfrac{X_i-\mu}{\sigma})^2 \sim \chi^2(n)$
2. $\dfrac{(n-1)S^2}{\sigma^2}=\sum\limits^n_{i=1}(\dfrac{X_i-\overline X}{\sigma})^2 \sim \chi^2(n-1)$ (在1式情况下，当 $\mu$ 未知时，用 $\overline X$ 来代替 $\mu$ )
3. $\overline X，S^2$ 相互独立，且 $\dfrac{\overline X-\mu}{S/\sqrt{n}} \sim t(n-1)$ (在把 $\overline X$ 标准化的时候，当 $\sigma$ 未知时，用 $S$ 来代替 $\sigma$ ， $t$ 指 $t$ -分布)

推断统计

十、正态变量的幂的统计量

假设 $X\sim N(\mu,\sigma^2)$

仍然可以设 $Z=\dfrac{X-\mu}{\sigma}$ ， $Z\sim N(0,1)$

$E[X^2]=D[X]+E[X]^2=\sigma^2+\mu^2$ .

由于 $E[Z^3]=\int\limits^\infty_{-\infty}z^3\varphi(z)dz$ ，且正态分布 $\varphi(z)=\dfrac{1}{\sqrt{2\pi}}e^{-z^2/2}$ 是偶函数， $z^3$ 是奇函数，且计算右半轴
$\int\limits^\infty_{0}z^3\varphi(z)dz$
$=\int\limits^\infty_{0}z^3\dfrac{1}{\sqrt{2\pi}}e^{-z^2/2}dz$
$=\int\limits^\infty_{0} \dfrac{z^3}{2^{3/2}} \dfrac{2^{3/2}}{\sqrt{2\pi}} \sqrt{2}e^{-z^2/2}d\dfrac{z}{\sqrt{2}}$
$=\dfrac{2\sqrt{2}}{\sqrt{\pi}}\int\limits^\infty_{0}t^3e^{-t^2}dt$ , $(t=z/\sqrt{2})$
$=\dfrac{2\sqrt{2}}{\sqrt{\pi}}\dfrac{1}{2}\Gamma(2)=\dfrac{\sqrt{2}}{\sqrt{\pi}}<\infty$
所以此积分收敛，根据奇函数性质 $E[Z^3]=0$
同理可得 $E[Z^4]=\dfrac{4}{\sqrt{\pi}}\Gamma(\dfrac{5}{2})=3$ 等等

注释

事实上，有 $\int\limits^\infty_{0}z^n\varphi(z)dz=\dfrac{\sqrt{2}^n}{2\sqrt{\pi}}\Gamma(\dfrac{n+1}{2})(n\in Z^+)$
所以
$\int\limits^\infty_{-\infty}z^n\varphi(z)dz=\left\{ \begin{aligned} &\dfrac{\sqrt{2}^n}{\sqrt{\pi}}\Gamma(\dfrac{n+1}{2}) & & (n=2k) \\ &0 & & (n=2k+1) \\ \end{aligned} \right.(k\in Z^+)$
其中 $\Gamma(x)$ 是 $\Gamma$ 函数。即阶乘函数。 $\Gamma(x+1)=x\Gamma(x)=x!$ 。 $\Gamma$ 函数特别地，满足 $\Gamma(1/2)=\sqrt{\pi}$

另一方面
$E[Z^3]=E[(\dfrac{X-\mu}{\sigma})^3]=E[\dfrac{1}{\sigma^3}(X^3-3\mu X^2+3\mu^2X-\mu^3)]$
$=\dfrac{1}{\sigma^3}(E[X^3]-3\mu E[X^2]+3\mu^2E[X]-\mu^3)$
$=\dfrac{1}{\sigma^3}(E[X^3]-3\mu(\sigma^2+\mu^2)+3\mu^2\mu-\mu^3)$
可得

$E[X^3]=3\mu\sigma^2+\mu^3$

以这种方法可以算出高次幂的期望，进而根据 $D[X^n]=E[X^{2n}]-E[X^n]^2$ 可以算出高次幂的方差。如

$E[X^4]=3\sigma^4+6\mu^2\sigma^2+\mu^4$
$D[X^2]=E[X^4]-E[X^2]^2=2\sigma^4+4\mu^2\sigma^2$

十一、条件期望（考研不考）

记 $X, Y$ 为联合分布的两个连续随机变量，给定 $Y = y$ 条件下，有
$E[X|Y=y]=\int\limits^\infty_{-\infty}xf_{X|Y}(x|y)dx$
期望规则仍然有效
$E[g(X)|Y=y]=\int\limits^\infty_{-\infty}g(x)f_{X|Y}(x|y)dx$

全期望定理

设 $A_1,A_2$ 为互不相容的n个事件，且 $P(A_i )>0$ 、这些事件形成样本空间的一个分割，则
$E[X]=\sum\limits_{i=1}^n P(A_i)E[X|A_i]$

$E[X]=\int\limits^\infty_{-\infty}E[X|Y=y]f_{Y}(y)dy$

证明如下
$\int\limits^\infty_{-\infty}E[X|Y=y]f_{Y}(y)dy$
$=\int\limits^\infty_{-\infty}\left[\int\limits^\infty_{-\infty}xf_{X|Y}(x|y)dx\right]f_{Y}(y)dy$
$=\int\limits^\infty_{-\infty}\int\limits^\infty_{-\infty}x\left[f_{X|Y}(x|y)f_{Y}(y)\right]dxdy$
$=\int\limits^\infty_{-\infty}\int\limits^\infty_{-\infty}xf_{X,Y}(x,y)dxdy$
$=\int\limits^\infty_{-\infty}x\left[\int\limits^\infty_{-\infty}f_{X,Y}(x,y)dy\right]dx$
$=\int\limits^\infty_{-\infty}xf_{X}(x)dx=E[X]$

反过来想，有
$E[E[X|Y]]=\int\limits^\infty_{-\infty}E[X|Y=y]f_{Y}(y)dy$
( $E [X ∣ Y]$ 是随机变量 $Y$ 的函数)
可以导出一个非常重要的结论–重期望法则

重期望法则

$E [E [X ∣ Y]] = E [X]$

十二、条件方差（考研不考）

接上节，
如果我们把 $Y$ 视为一种观测值或一种抽样，我们可以将条件期望视为给定 $Y$ 条件下对 $X$ 的一种估计，记作 $\hat{X} = E[X|Y]$
我们就可以定义估计误差 $\tilde{X}=\hat{X}-X$
估计误差也是随机变量，且满足
$E[\tilde{X}|Y]=E[(\hat{X}-X)|Y]=E[\hat{X}|Y]-E[X|Y]=\hat{X}-\hat{X}=0$
应用重期望法则还可得到
$E[\tilde{X}]=E[E[\tilde{X}|Y]]=0$
也就是说 $\hat{X}$ 是一种无偏估计
还可证明， $\tilde{X},\hat{X}$ 不相关，证明如下
首先 $E[\hat{X}\tilde{X}]=E[E[\hat{X}\tilde{X}|Y]]=E[\hat{X}E[\tilde{X}|Y]]=0$ (对于确定的 $Y$ , $\hat{X}$ 也是确定的)
从而 $cov(\hat{X},\tilde{X})=E[\hat{X}\tilde{X}]-E[\hat{X}]E[\tilde{X}]=0-E[X]\cdot 0=0$
由 $cov(\hat{X},\tilde{X})=0$ 导出
$D[X]=D[\hat{X}-\tilde{X}]=D[\hat{X}]+D[\tilde{X}]$