概率与统计之二

君之微

已于 2022-05-11 18:41:11 修改

阅读量211

点赞数

分类专栏：概率论文章标签：概率论机器学习人工智能

于 2022-03-06 12:31:53 首次发布

本文链接：https://blog.csdn.net/m0_58377977/article/details/123010219

版权

概率论专栏收录该内容

10 篇文章 1 订阅

订阅专栏

$\color{green}\Large\textbf{概率与统计之二}$
文章为一些读书笔记，原书为机械工业出版社的《概率论导论》Joseph K.Blizstein和Jessica Hwang著，案例讲解和讲述证明是本书的一大特点，教给人们的不只是一些概率论的概念和公式，而是思考问题的思维方式和策略。不过就是书里的错印有点多，需要边看边改。
_(:з」∠)

一. 随机变量及其分布 & 期望

1. 期望与方差

1). 离散型随机变量的期望

$加权平均(x)=\sum_{j=1}^nx_jp_j$
$p_j$ 为加权数，如果设 $p_j$ 为非负数，且 $\sum_{j=1}^np_j=1$ 。当 $p_1=p_2=...=p_n=\frac{1}{n}$ 时，加权平均等于算数平均
离散型随机变量期望的定义是受到了加权平均定义的启发，相应的概率值实际上相当于权重.若 $X$ 为一随机变量则其期望如下：
$E(X)=\sum_{j=1}^\infty x_jP(X=x_j)$
期望的线性性质：
对于随机变量 $X, Y$ 和任意的常数 $c$ ,有
$\begin{aligned} E(X+Y)&=E(X)+E(Y),\\ E(cX)&=cE(X) \end{aligned}$

2). 有关 $\choose 2}$ 的思考

$X\thicksim Bin(n,p)$ 服从二项分布:
显然这是一个 $E (g (X))$ 期望，而 $g(X)={X\choose 2}$ 由于 $X$ 的值表示试验成功的次数，那么 ${X\choose 2}$ 就表示试验成功的对数，比如说如果有三次试验成功，那么成功对数即为 ${3\choose 2}=3$ 。如果为每一对试验创建一个示性随机变量，则会有 ${n\choose 2}$ 对试验，每对试验成功的概率为 $p^2$ ,于是根据期望的线性性质可得
$\choose 2}={n\choose 2}p^2$
$X\thicksim HGeom(w,b,n)$ 服从超几何分布:
设 $N = w + b$ ,由于 $X$ 的值表示试取出白球的个数，那么 ${X\choose 2}$ 就表示取出白球的对数，如果为每一对白球创建一个示性随机变量，则一对白球会从 ${n\choose 2}$ 个位置处取出，每对白球取出的成功概率为 $\frac{w}{N}\frac{w-1}{N-1}$ ,于是根据期望的线性性质可得
$\choose 2}={n\choose 2}\frac{w}{N}\frac{w-1}{N-1}$

3). 无意识的统计规律(LOTUS)

如果 $X$ 是一个离散型随机变量， $g$ 是一个从 $R$ 到 $R$ 的函数，则有
$E(g(x))=\sum_{x}g(x)P(X=x)$
其中，求和符号表示取遍 $X$ 所有可能的值

4). 方差

方差是对一个随机变量的分布的单值总结。期望描述了一个分布的质心所在的位置，而方差则描述了一个分布延伸的扩展程度
$Var(X)=E(X-EX)^2$
方差的平方根称为标准差(SD)
$SD(X)=\sqrt{Var(X)}$
将方差公式展开计算会得到一个与期望更为一般的公式
$Var(X) = E(X^2)-(E(X))^2$
方差的性质:

对于任意常数 $c$ ，有 $V a r (X + c) = V a r (X)$ 。从直观上看，如果将一个分布向左向右进行平移，只会影响到质心，而不会影响它的展形
对于任意常数 $c$ ， $Var(cX)=c^2Var(X)$
如果 $X$ 与 $Y$ 是相互独立的，则有 $V a r (X + Y) = V a r (X) + V a r (Y)$ ，
如果 $X$ 和 $Y$ 不是相互独立的 $Var(X+Y)\neq Var(X) + Var(Y)$
2,3性质说明方差不具备线性性质
$Var(X)\geqslant 0$ ,当且仅当 $P (X = a) = 1$ 时等式成立，即当 $X$ 是常数时方差为0

2. 主要离散型随机变量整理

在这里插入图片描述

1).伯努利分布

2).二项分布

3).负二项分布

4).几何分布

几何分布与指数分布是随机分布中唯二拥有无记忆性的分布，几何分布是离散型，指数分布是连续型

5).第一次成功分布

6).超几何分布

有关超几何分布中最典型的例题，从 $w$ 个白球， $b$ 个黑球中不放回抽取 $n$ 个球，其中有 $k$ 个白球的概率
关于这个例题其实可以通过两个角度去求取概率 $H G e o m (w, b, n) 与 H G e o m (n, w + b - n, w)$ ,其表达式分别为
$\begin{aligned} &P(X=k)=\frac{{w\choose{k}}{b\choose{n-k}}}{w+b\choose n}&&&&&&&&HGeom(w,b,n)\\ &P(Y=k)=\frac{{n\choose k}{N-n \choose{w-k}}}{N\choose w}&&&&&&&&HGeom(n,N-n,w)N=w+b即是全部小球的个数 \end{aligned}$
这两种分布的概念是同一种意思，不过是从分布的不同角度来看

$H G e o m (w, b, n)$

这是我们最熟悉的，抽取的 $n$ 个球中肯定有一部分( $k$ )分布在白球 $w$ 中，有一部分( $n - k$ )分布在黑球 $b$ 中
所以分子分母的意义都为抽取的 $n$ 个小球中的可能组合，分母为全部球中抽取 $n$ 个小球的所有可能组合，分子为抽出的 $n$ 个球中有 $k$ 个白球的组合可能，其看待分布的基本视角是从抽出的球中两个颜色的球该如何分配来看的

$H G e o m (n, w + b - n, w)$

这个分布稍微有点特殊，可以考虑白球出现在各个球上的可能，这 $w$ 个白球中肯定有一部分( $k$ )出现在已抽出的球 $n$ 中，其余部分( $w - k$ )出现在未被抽出的球 $(w + b - n)$ 中，而这种组合的全部可能便为分子，而分母便可以看成 $w$ 个白球在每个球中出现的所有可能组合，这个意思便是比如在 $N$ 个无色的球中，每一个球都有可能变成白球和黑球，但只有可能出现 $w$ 个白球和 $N - w$ 个黑球，其实就是从 $N$ 中挑出 $w$ 个球染成白球的所有可能组合。其看待分布的基本视角是从所有白球在抽出的和未被抽出的两个分组中该如何分配来看的
从所有球中挑出 $w$ 个球染成白色，有 ${N\choose w}$ 种可能，而这 $w$ 个白球有可能一部分 $k$ 在抽出的球中 $n$ ，一部分 $(w - k)$ 在没有抽出的球中 $(N - n)$ ,可能的组合数为 ${n\choose k}{N-n \choose{w-k}}$

当然无论从哪一个角度去看待这个试验，对实验结果的既定事实的描述必须是一致的，这就是为什么两者的计算结果是一样的，只不过是对同一个试验的两种看法

7).泊松分布

已知一种试验成功或者事件在单位时间内发生的平均次数为 $\lambda$ ，则在确定时间 $t$ 内，以该事件可能发生的次数为一个随机变量 $X$ ，则该随机变量所有支撑的概率构成的分布即为泊松分布,也就是该时间段内，事件所有可能发生次数的概率。
$X\sim Pois(\lambda t)\\ P(X=k)=\frac{(\lambda t)^k}{k!}e^{-\lambda t}\\ k即为试验成功或事件发生次数\qquad P(X=k)为该次数对应的概率$
比如说一个城市的公共交通系统非常烂，有一路公交车，每次等车到来的时间都不一定，有可能前一班车走后等五分钟后一班车就到，也有肯能要等五十分钟下一班车才到，现在我们想知道十分钟内能等到的该路公交车的次数的概率分布。虽然公交车两班车的间隔时间不是定数，但我们总可以数出一天中或者一周中通过的所有公交车的次数，除以一天或者一周换算成的分钟数，便是平均每分钟可能等到的车次数目 $\lambda$ ，一般称之为 $\textcolor{blue}{到达速率或成功速率}$ ，便称该路公交车的 $\textcolor{red}{到达时间}\textcolor{blue}{服从速率为\lambda的泊松过程}$ 。乘以10便是十分钟内车次到达速率，将 $10\lambda$ 带入公式便可得十分钟内所能等到的公交车班次 $k$ 的概率分布
$X\sim Pois(10\lambda)\quad P(X=k)=\frac{(10\lambda)^k}{k!}e^{-10\lambda}$
同理一分钟内所能等到的公交车班次 $k$ 的概率分布为
$X\sim Pois(\lambda)\quad P(X=k)=\frac{(\lambda)^k}{k!}e^{-\lambda}$
同时这里有个问题，那便是如果我们进行常见的观察，发现前一天中的到达车次与第二天的到达车次不同，也就说是第一天的到达速率 $\lambda_1$ 与第二天的到达速率 $\lambda_2$ 不同，那我们以哪一天的到达速率为准？这个问题需要通过后验测试不断更新到达速率，主要通过与泊松分布共轭的伽马分布来完成

$性质1：若X\sim Posi(\lambda p),Y\sim Posi(\lambda q),q+p=1，且X和Y相互独立，则N=X+Y \sim Posi(\lambda)，且X|N=n \sim Bin(n,p)$
$\sim Posi(\lambda)，且X|N=n \sim Bin(n,p)，则X\sim Posi(\lambda p),Y = N -X \sim Posi(\lambda q)， \\且X和Y独立，p+q=1$

3. 二项分布与超几何分布的关系

1). 条件分布

给定两个独立的随机向量 $X, Y$ ，并给定条件 $X + Y = k$ ，即 $X + Y$ 始终为一个常数 $k$ ，在此条件下随机变量 $X + Y$ 的分布可以根据全概率公式求得
$\begin{aligned} P(X+Y=k) &= \sum_{j=0}^kP(X+Y=k|X=j)P(X=j) \\ &=\sum_{j=0}^kP(Y=k-j)P(X=j) \end{aligned}$
也就是说假设 $k = 4$ 的话
$\begin{aligned} P(X+Y=4) &= P(X=0)P(Y=4) + P(X=1)P(Y=3)\\ &+P(X=2)P(Y=2)+P(X=3)P(Y=1)\\ &+P(X=4)P(Y=0) \end{aligned}$
这其实就是一个卷积计算

2). 独立二项分布之和

设 $\thicksim Bin(n,p), Y \thicksim Bin(m,p)$ ，且 $X$ 和 $Y$ 是独立的,则 $\thicksim Bin(n+m,p)$
第一种办法通过全概率公式证明，这便是之前所说的条件分布
$\begin{aligned} P(X+Y=k) &= \sum_{j=0}^kP(X+Y=k|X=j)P(X=j) \\ &=\sum_{j=0}^kP(Y=k-j)P(X=j)\\ &=\sum_{j=0}^k{m \choose{k-j}}p^{k-j}q^{m-k+j}{n \choose j}p^jq^{n-j}\\ &=p^{k}q^{n+m-k}\sum_{j=0}^k{m \choose{k-j}}{n \choose j}\\ &={n + m \choose k}p^{k}q^{n+m-k} \end{aligned}$
上述结果就是 $B i n (n + m, p)$ ，于是 $\thicksim Bin(n+m,p)$
第二种办法就是讲述证明
对于一个成功概率为 $p$ 的伯努利试验，同时进行 $n$ 次和 $m$ 次试验与依次进行 $n + m$ 次伯努利试验的结果分布是一致的

3). 条件二项分布

设 $\thicksim Bin(n,p), Y \thicksim Bin(m,p)$ ，且 $X$ 和 $Y$ 是独立的，若给定条件 $X + Y = r$ ,计算 $P (X = x ∣ X + Y = r)$
由贝叶斯准则可得
$\begin{aligned} P(X=x|X+Y=r) &=\frac{P(X+Y=r|X=x)P(X=x)}{P(X+Y=r)} \\ &=\frac{P(Y=r-x)P(X=x)}{P(X+Y=r)}\\ &=\frac{{m \choose{r-x}}p^{r-x}(1-p)^{m-r+x}{n \choose x}p^x(1-p)^{n-x}}{{n+m \choose r}p^r(1-p)^{n+m-r}}\\ &=\frac{{n\choose x}{m\choose{r-x}}}{{n+m\choose r}} \end{aligned}$
因此， $X$ 的条件分布就是一个超几何分布 $H G e o m (n, m, r)$
讲述思考：
通过结果公式可知，即便给定二项分布 $X 与 Y$ 的成功概率 $p$ ，但在实际计算过程中条件分布的计算与 $p$ 并没有什么关系，也就是说无论 $X 与 Y$ 的成功概率相等或不相等都不会影响 $X$ 的条件分布结果，这就像小球抽取试验，可以把 $X$ 看做白球，总共 $n$ 个， $Y$ 看做黑球，总共 $m$ 个，给定的条件为抽取 $r$ 个球，且被抽取的白球为 $x$ 个，那么黑球被抽取数量必然为 $r - x$ 个，于是该事件便是服从一个 $H G e o m (n, m, r)$ 超几何分布。
于是可以得出以下结论:
如果 $\thicksim Bin(n,p_1), Y \thicksim Bin(m,p_2)$ ，且 $X$ 和 $Y$ 是独立的，则当给定条件 $X + Y = r$ 时, $X$ 的条件分布为超几何分布 $H G e o m (n, m, r)$

4). 极限超几何分布

当一个超几何分布 $H G e o m (w, b, n)$ 的 $N = w + b$ 远比 $n$ 要大的话，可以使用 $Bin(n,\frac{w}{w+b})$ 来近似替代 $H G e o m (w, b, n)$ ，也就是说极限超几何分布可以近似为二项分布。虽然可以使用公式代数计算证明，不过其实其中的逻辑思维不难理解，抽出 $n$ 个球本质是依次抽取 $n$ 个球，抽出白球为成功，抽出黑球为失败，因为所有球中就只有这两种颜色。但由于是不放回取样，所以每上一次试验都会影响下一次试验的成功概率，但是如果 $N = w + b$ 远大于 $n$ 的话，也就是抽取的白球和黑球数相对于总球数来说属于微乎其微的情况下，每一次抽取白球或者黑球的成功概率其实是几乎不变的，也就是一直都是 $p=\frac{w}{w+b}, q=\frac{b}{w+b}$ ，而这种情况便是符合一个二项分布试验。所以得出结论：超几何分布的极限便是二项分布

4. 二项分布与泊松分布之间的联系

1). 独立泊松分布之和

如果 $\thicksim Pois(\lambda_1),Y \thicksim Pois(\lambda_2)$ ，且 $X 和 Y$ 相互独立，则有 $\thicksim Pois(\lambda_1+\lambda_2)$
使用全概率公式证明：
$\begin{aligned} P(X+Y=k) &= \sum_{j=0}^kP(X+Y=k|X=j)P(X=j) \\ &=\sum_{j=0}^kP(Y=k-j)P(X=j)\\ &=\sum_{j=0}^k \frac{e^{-\lambda_2}\lambda_2^{k-j}}{(k-j)!}\frac{e^{-\lambda_1}\lambda_1^j}{j!}\\ &=e^{-(\lambda_1+\lambda_2)}\sum_{j=0}^k\frac{1}{(k-j)!j!}\lambda_1^j\lambda_2^{k-j}\\ &=\frac{e^{-(\lambda_1+\lambda_2)}}{k!}\sum_{j=0}^k\frac{k!}{(k-j)!j!}\lambda_1^j\lambda_2^{k-j}\\ &=\frac{e^{-(\lambda_1+\lambda_2)}}{k!}\sum_{j=0}^k{k! \choose j}\lambda_1^j\lambda_2^{k-j}\\ &=\frac{e^{-(\lambda_1+\lambda_2)}(\lambda_1+\lambda_2)^k}{k!} \end{aligned}$
最后一步使用了二项式定理，由此得到了 $Pois(\lambda_1+\lambda_2)$ 的概率质量函数，因此 $\thicksim Pois(\lambda_1+\lambda_2)$

2). 条件泊松分布

如果 $\thicksim Pois(\lambda_1),Y \thicksim Pois(\lambda_2)$ ，且 $X 和 Y$ 相互独立，则给定 $X + Y = n$ 条件下， $X$ 的条件分布为 $Bin(n,\frac{\lambda_1}{\lambda_1+\lambda_2})$
利用贝叶斯准则证明:
$\begin{aligned} P(X=k|X+Y=n) &=\frac{P(X+Y=n|X=k)P(X=k)}{P(X+Y=n)} \\ &=\frac{P(Y=n-k)P(X=k)}{P(X+Y=n)}\\ &=\frac{(\frac{e^{-\lambda_2}\lambda_2^{n-k}}{(n-k)!})(\frac{e^{-\lambda_1\lambda_1^k}}{k!})}{\frac{e^{-(\lambda_1+\lambda_2)}(\lambda_1+\lambda_2)^n}{n!}}\\ &={n \choose k}\frac{\lambda_1^k\lambda_2^{n-k}}{(\lambda_1+\lambda_2)^n}\\ &={n \choose k}(\frac{\lambda_1}{\lambda_1+\lambda_2})^k(\frac{\lambda_2}{\lambda_1+\lambda_2})^{n-k} \end{aligned}$
这正是一个 $B i n (n, p)$ 二项分布，其中 $p=\frac{\lambda_1}{\lambda_1+\lambda_2}，q=1-p=\frac{\lambda_2}{\lambda_1+\lambda_2}$ ，也就是说一个当两个泊松随机向量的和固定为常数并以此为条件时，其中任何一个随机向量的分布为一个二项分布

3). 极限二项分布

如果 $X\thicksim Bin(n,p)$ 并令 $n\to\infty,p\to 0$ ,使得 $\lambda=np$ 固定，则 $X$ 的概率质量函数收敛于 $Pois(\lambda)$ 的概率质量函数。更一般的，如果 $n\to\infty,p\to 0$ 使得 $np\to\lambda$ ，则有相同的结论成立。换句话说就是极限二项分布会趋向于一个泊松分布，而这便是泊松分布最大的用处。
比如一个网站，假设每天大约有100万人决定是否访问该网站，每个人访问的概率为 $p=2*10^{-6}$ ，则在一天中不少于3人访问该网站的概率为多少。这显然是一个 $X\thicksim Bin(n,p)$ 二项分布，但由于试验次数 $n$ 过大，而成功率又过小，所以计算随机变量的分布计算量是非常巨大且困难的，这时候就需要用到泊松分布近似，由于 $\lambda = np = 2$ ，所以此时 $P o i s (2)$ 对于该二项分布是一个非常好的近似。可以得到
$P(X\geqslant 3) = 1 - P(X <3)\approx1-e^{-2}-2*e^{-2}-\frac{2^2}{2!}e^{-2}=1-5e^{-2}\approx0.3233$
$\lambda = np = 2$ 的解释为， $n = 100 万$ 人中每个人浏览该网站的概率一致为 $p=2*10^{-6}$ 且彼此之间相互独立，那么这很明显可以构成一个二项式分布, 即一次试验的成功率为 $2*10^{-6}$ ，测试 $100 万$ 次，可能的成功的次数的概率便构成一个二项式分布，即 $X (s) =$ 成功的次数。也就是 $X\sim Bin(n,p)$ ,如果要求这一小时内的平均访问人数，便是求这二项分布的期望 $E (X) = n p = 2$

4). 泊松范式

设 $A_1,A_2,..,A_n$ 为事件，其中 $p_j=P(A_j),p_j$ 非常小， $n$ 非常大，并且 $A_j$ 之间互相独立或者弱相关。设 $X=\sum_{j=1}^nI(A_j)$ 表示 $A_j$ 出现的次数，则 $X$ 近似服从于参数为 $\lambda$ 的泊松分布，其中 $\lambda = \sum_{j=1}^np_j$ ，也就是所有事件的概率和

5. 通过生存函数求期望

设X是取值为非负整数的随机变量。F为X的累积分布函数，且 $G (x) = 1 - F (x) = P (X > x)$ 。函数G叫做X的生存函数。也就是说如果X的支撑为 ${1,2,3,4,5\}$ ，即 $X(s)\in \{1,2,3,4,5\}$ ,比如当 $x = 3 时 F (3) = P (X = 1) + P (X = 2) + P (X = 3), 由于 P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) + P (X = 5) = 1 ，于是 1 - F (3) = P (4) + P (5) = G (3)$
随机变量的生存函数表达式如下
在这里插入图片描述

二. 连续型随机变量

连续型随机变量的基本性质以及认识误区:

连续型随机变量等于任何特定值的概率为0，其概率所描述的对象必须是一个测量范围或者说一个区间
对于连续型随机变量，累积分布函数是概率密度函数区间上的定积分，通常而言如果要确定累积分布函数的有效性，那么积分的区间边界将是无穷的，此时概率累积将是求解一个反常积分，而如果在实际应用中要确定固定区间内的随机变量的概率，此时概率累积将是求一个定积分，而累积分布函数将成为一个变上限积分函数
无论是离散型随机变量还是连续型随机变量。要确定一个随机变量，首先要做的是确定要测定的目标事件，并量化该事件可能发生的所有结果，这其实就是随机变量 $X$ 的实际意义 $x_j=X(s_j)$ ，横坐标便是测定该事件一次时所能发生的所有值,可能出现的值区间便是支撑集。而纵坐标便是概率值，反映出每个测定值或测定区间所出现的概率。
需要注意的是当我们在考虑两个随机变量是否相等时，即 $X_i=X_j$ 这时考虑的是在进行一次测试时，根据概率所随机出现的横轴上某一事件测量值 $x_i与x_j$ 是否有可能相等。
而同时，随机变量分布的函数原型,概率质量函数 $P M F$ 与概率密度函数 $P D F$ 并不仅仅用于预测事件可能情况的发生，其函数原型其他学科中的数学模型使用，比如正态分布用于模式识别中模拟信号中的噪音生成，当然一般是使用连续型随机变量的概率密度函数 $P D F$ ，此时函数定义域内所有值有可能都将被使用，随机变量在此已经没有意义了，此处需要注意与3中用途的区分

1. 概率密度函数

在这里插入图片描述

1). 累积分布函数的有效性

在这里插入图片描述

2). 概率密度函数的有效性

在这里插入图片描述

3). 概率质量函数的有效性

在这里插入图片描述

2. 常用的连续型随机变量

1). 均匀分布

一般型
$\begin{aligned} 分布的表达式：&U\sim Unif(a,b)\\ 概率密度函数： &f(x)= \begin{cases} \frac{1}{b-a}，&a<x<b\\ 0，&其他 \end{cases}\\ 概率累积分布函数： &F(x)= \begin{cases} 0，&x\leq a\\ \frac{x-a}{b-a}，&a<x<b\\ 1,&x\geq b \end{cases}\\ \end{aligned}$
标准型
$\begin{aligned} 分布的表达式：&U\sim Unif(0,1)\\ 概率密度函数： &f(x)= \begin{cases} 1，&0<x<1\\ 0，&其他 \end{cases}\\ 概率累积分布函数： &F(x)= \begin{cases} 0，&x\leq 0\\ x，&0<x<1\\ 1,&x\geq 1 \end{cases}\\ \end{aligned}$
随机变量的意义
均匀分布的意义很简单，在支撑内的任何随机变量出现的概率完全相同

2). 正态分布

一般型
$\begin{aligned} 分布的表达式：&Z\sim N(\mu,\sigma^2)\\ 概率密度函数：&f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ 概率累积分布函数：&F(z)=\int_{-\infty}^z\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx\\ \mu为期望值，\sigma为标准&差，\sigma^2为方差\quad E(Z^2)=Var(Z)+E^2(Z) \end{aligned}$
标准型
$\begin{aligned} &分布的表达式：Z\sim N(0,1)\\ &期望值\mu=0 \quad方差\sigma^2=1\quad E(Z^2)=Var(Z)=1\\ &概率密度函数：f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\\ &概率累积分布函数：F(z)=\int_{-\infty}^z\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx\\ \end{aligned}$
68% ~ 95% ~ 99.7%定理
由于正态分布的累积分布函数是一个非初等函数，对其的求值会很繁琐，所以记住其关键点的几个特殊数值会使应用更加便利
$\begin{aligned} &P(|X-\mu|<1\cdot \sigma)\thickapprox0.68\\ &P(|X-\mu|<2\cdot \sigma)\thickapprox0.95\\ &P(|X-\mu|<3\cdot \sigma)\thickapprox0.997\\ \end{aligned} \xRightarrow{标准化} \begin{aligned} &P(|Z|<1)\thickapprox0.68\\ &P(|Z|<2)\thickapprox0.95\\ &P(|Z|<3)\thickapprox0.997\\ \end{aligned}$
以标准正态分布为例，来说明就是概率密度函数曲线与底线所围成的面积中，
区间 $(- 1, 1)$ 与区间 $(- 2, 2)$ 与区间 $(- 3, 3)$ 的面积之比为 $0.997\implies68\% : 95 \%: 99.7\%$

3). 指数分布

一般型
$\begin{aligned} &分布的表达式：X\sim Expo(\lambda)\\ &概率密度函数：f(x)=\lambda e^{-\lambda x},x>0，\\ &概率累积分布函数：F(x)=1-e^{-\lambda x},x>0,\\ &\lambda为单位时间内试验成功的次数，\\ &x为时间，要注意的是x的单位与\lambda的单位时间的选择有关\\ &\begin{cases} 若单位时间为1分钟 &x=1表示一分钟，F(X=x)=P(X \leq 1)表示一分钟内至少成功一次的概率\\ 若单位时间为1分钟 &x=2表示两分钟，F(X=x)=P(X \leq 2)表示两分钟内至少成功一次的概率\\ 若单位时间为10分钟&x=1表示十分钟，F(X=x)=P(X \leq 1)表示十分钟内至少成功一次的概率\\ 若单位时间为10分钟&x=2表示二十分钟，F(X=x)=P(X \leq 2)表示二十分钟内至少成功一次的概率\\ \vdots\\ 以此类推 \end{cases}\\ &\frac{1}{\lambda}为期望，\frac{1}{\lambda^2}为方差\\ \end{aligned}$
标准型
$\begin{aligned} &\lambda = 1\\ &概率密度函数：f(x)=e^{-x},x>0，\\ &概率累积分布函数：F(x)=1-e^{-x},x>0,\\ &期望为1同时方差为1\\ \end{aligned}$
随机变量的意义
对于指数分布来说有具体对应的事件描述，类似于几何分布，指数变量便是第一次试验成功时所等待的时间
顺便考虑一下指数分布跟几何分布的关系：

$\textcolor{blue}{几何分布变量}:等待第一次试验成功时所需的试验次数。\textcolor{blue}{指数分布变量}:等待第一次试验成功所需要的时间$
$\textcolor{blue}{几何分布变量}:试验次数是离散型变量。\textcolor{blue}{指数分布变量}:等待时间是连续型变量$
如果几何分布试验时的试验速率足够快，前后两次试验之间的间隔足够小，那么几何分布将近似于指数分布，所以几何分布的变量也可以看做是一种离散型时间
$\textcolor{blue}{几何分布变量}:离散时间上首次成功的几何型等待时间。\textcolor{blue}{指数分布变量}:连续时间上首次成功的指数型等待时间$

无记忆性
如果服从某一分布的随机变量 $X$ ，对所有 $s ， t > 0$ ，满足 $P(X\geq s+t|X\geq s)=P(X\geq t)$ ，则称该分布具有无记忆性
其意义为等待 $s$ 分钟后你必须接着等待 $t$ 分钟事件才发生的概率，与之前不需要等待而直接等待 $t$ 分钟的概率完全相同。
从贝叶斯准则去考虑的话就是 $\displaystyle P(X\geq s+t|X\geq s)=\frac{P(X\geq s+t)}{P(X\geq s)}=\frac{\lambda e^{-\lambda (s+t)}}{\lambda e^{-\lambda s}}=e^{-\lambda t}=P(X \geq t)$ 。
举例：如果还是以等公交车为例的话，就是当你等了 $s$ 时间后公交车还没来，那么接下来所要等待的时间 $t$ 与已等待时间 $s$ 无关，仍然服从从 $0$ 开始的指数分布,就是从头开始等车的时间
独立指数随机变量序列的最小次序统计量
$设X_1,..,X_n相互独立且X_j\sim Expo(\lambda_j)。令L=min(X_1,...,X_n),于是L\sim Expo(\lambda_1+\cdots +\lambda_n)\\ 对于该分布的讲述证明其实更容易理解。\\ \textcolor{blue}{例1.在马路边等待车辆的到来}\\ X_1为等来第一辆宝马车所需时间，X_2为等来第一辆奔驰车所需时间，依次类推X_j代表等待第一辆某种品牌的汽车所花时间，\\ 那么L其实就是等到第一辆汽车所需的时间，这辆车可以是n种品牌车中任意一种，也就是说只要是车就行。\\ 关于这个事例所需要理解的是L的设立并不是为了对比较每个品牌的第一辆车出现的时间进行比较，\\ 尽管它的表达式可以那样写，当第一辆车出现后，后面的车何时出现已经没有意义，因为第一辆车出现的时间\\ 就是等待的最短时间与其比较每个品牌的车出现的时间长短，不如统计所有车辆直接记录它们中第一辆出现\\ 所等待的时间便好，意义是相同的，既然单位时间内\lambda_j代表每一种品牌的车所出现的次数，那么对于所有车来说\\ 单位时间内出现的车辆数为\lambda=\lambda_1+\cdots +\lambda_n，于是便得到L\sim Expo(\lambda_1+\cdots +\lambda_n)\\ \textcolor{blue}{例2.最快解题时间}\\ 两名学生分别独立求解一道难题，且两人解出题目所需时间服从指数分布分别为X\sim Expo(1),\\ Y\sim Expo(1)，且令M=max(X,Y),L=min(X,Y)，与上面的例子同理，L服从的分布就是两人分别解题， \\该题被解出所需时间的概率，由于这两个人任何一人解出该题都算被解出，所以就如同是合力解题\\ L\sim Expo(1+1=2)\\ 这里还有一种分布便是M-L，字面上的意思是两人中花时间较长的解题时间与花时间较短的解题时间之间的差值\\ 这还可以理解为当第一个学生解出题后，第二个学生还需要多长时间才能将题解出，很显然这是对于第二个学生\\ 解题时间的条件分布，当意识到\textcolor{blue}{题已被别人解出后}自己还要花多久才能解出该题，根据指数分布的无记忆性，\\ 所以这段时间也服从指数分布Expo(1)，并且与L相独立$

4). 连续型随机变量的期望和方差

设 $X$ 为一连续型随机变量
期望: $E(X)=\int_{-\infty}^{+\infty}xf(x)dx，f(x)为概率密度函数$
方差与离散型随机变量的计算方法一致: $Var(X)=E(X^2)-(E(X)^2)$
无意识统计规律: $E(g(X))=\int_{-\infty}^{+\infty}g(x)f(x)dx$
连续型随机变量的期望与方差的计算的便捷方式是：

求出该类型随机变量的标准分布
建立标准分布变量与所求变量之间的关系式
利用期望和方差的性质来求取目标期望和方差
比如随机变量 $Z$ 服从标准正态分布，即 $Z\sim N(0,1)$ 那么求 $X\sim N(1,2)$ 的期望和方差

首先列出关系式 $X=\mu+\sigma Z=1+2Z$
其次利用性质便可求解 $E (X) 与 V a r (X)$
$E (X) = E (1 + 2 Z) = E (1) + 2 E (Z) = 1$ 这也符合 $\mu=1$
$Var(X)=Var(1+2Z)=Var(2Z)=2^2Var(Z)=4$ 同样也符合 $\sigma^2=4$

5). 概率论中几个常用的积分

$\begin{aligned} &\int_{0}^{+\infty}e^{-x^2}dx=\frac{\sqrt{\pi}}{2}\qquad \int_{-\infty}^{+\infty}e^{-x^2}dx=\sqrt{\pi}\\ &\int_{0}^{+\infty}e^{-x^2/2}dx=\frac{\sqrt{2\pi}}{2}\quad \int_{-\infty}^{+\infty}e^{-x^2/2}dx=\sqrt{2\pi}\\ \end{aligned}$
$\Gamma$ 函数

函数的定义： $\Gamma(s)=\int_0^{+\infty}e^{-x}x^{s-1}dx,s>0$
几个特殊值： $\Gamma(\frac{1}{2})=\sqrt{\pi}\quad \Gamma(1)=1$
重要的递推性质 : $\Gamma(s+1)=s\Gamma(s)，s\in Z^+$
以及推导公式： $\Gamma(n+1)=n!$

$\Gamma$ 函数是一个反常积分，关于标准正态分布累积分布函数有效性的验证中， $\int_{-\infty}^{+\infty}e^{-x^2/2}dx$ 值的求解可以通过积分自乘构造二重积分并使用极坐标换元法来求取，也可以使用 $\Gamma$ 函数来求取
$\begin{aligned} &设x=\frac{u^2}{2}并代入\Gamma(s)=\int_0^{+\infty}e^{-x}x^{s-1}dx得\\ &\Gamma(s)=\int_0^{+\infty}e^{-\frac{u^2}{2}}(\frac{u^2}{2})^{s-1}udu \implies 2^{s-1}\Gamma(s)=\int_0^{+\infty}e^{-\frac{u^2}{2}}u^{2s-1}du\\ &取s=\frac{1}{2}得2^{-\frac{1}{2}}\Gamma(\frac{1}{2})=\int_0^{+\infty}e^{-\frac{u^2}{2}}du\implies \int_0^{+\infty}e^{-\frac{u^2}{2}}du = \frac{\sqrt{\pi}}{\sqrt{2}}=\frac{\sqrt{2\pi}}{2}\\ &又由于e^{-\frac{u^2}{2}}为偶函数所以\int_{-\infty}^{+\infty}e^{-\frac{u^2}{2}}du=2\int_0^{+\infty}e^{-\frac{u^2}{2}}du=\sqrt{2\pi} \end{aligned}$

$基于\Gamma函数的分布称为\textcolor{blue}{伽马分布}这在后面还会介绍$

6). 连续型随机变量整理

分布名	概率密度函数	累积分布函数	期望	方差
$逻辑斯谛分布$	$f(x)=\frac{e^x}{(1+e^x)^2},x\in R$	$F(x)=\frac{e^x}{1+e^x},x\in R$	0
$瑞利分布$	$f(x)=xe^{-x^2/2}$	$F(x)=1-e^{-x^2/2}$	$\sqrt{2 \pi}/2$
$均匀分布$	$f(x)=\frac{1}{b-a},a < x < b$	$F(x)=\frac{x-a}{b-a},a < x < b$	$\frac{a+b}{2}$	$\frac{(b-a)^2}{12}$
$正态分布$	$f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$	$F(z)=\int_{-\infty}^z\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$	$\mu$	$\sigma^2$
$指数分布$	$f(x)=\lambda e^{-\lambda x},x>0$	$F(x)=1-e^{-\lambda x},x>0$	$\frac{1}{\lambda}$	$\frac{1}{\lambda^2}$

3. 均匀分布的普遍性

1). 关于随机变量是否服从累积分布函数的证明

在这里插入图片描述

2). 均匀分布的普遍性理解

在这里插入图片描述

对于第一个结论中连续型变量的理解
在这里插入图片描述

对于第一个结论中离散型变量的理解
在这里插入图片描述
前面啰里啰嗦一大堆其实上两张图就明白了

$fig1\quad由正态分布生成均匀分布$

> n = rnorm(10^6,0,1) \\随机生成100万个符合标准正态分布的随机变量
> u = pnorm(n,0,1)\\将生成的随机变量代入标准正态分布的累积分布函数，生成的随机变量便符合标准均匀分布
> hist(n,breaks=100);
> hist(u,breaks=100);

将标准正态分布生成的100万个随机变量代入标准正态分布的累积分布函数中，生成的随机变量的直方图表示这些随机变量的聚集特征符合标准均匀分布
在这里插入图片描述
$fig2\quad由均匀分布生成正态分布$

> u = runif(10^6)
> z = qnorm(u)
> hist(u,breaks=100)
> hist(z,breaks=100)

R代码很简单，就是把由标准均匀分布生成的100万个随机变量代入正态分布累积分布函数的反函数(分位函数)，生成的随机变量积累的直方图显示这些随机变量的聚集特征符合正态分布

4. 独立同分布的连续型随机变量的对称性

首先要理解这么一个性质：
假设有两个独立同分布的连续型随机变量 $X_1与X_2$ ，则 $P(X_1=X_2)=0$ ，即两个独立同分布的连续型随机变量不可能相等，这也符合连续性随机变量的根本性质，随机变量等于特定值的概率为零。
该如何理解这一点呢。这就如同跳远，两个人踩到沙坑上的脚印无法完全重合一样，如果把跳出的距离看做连续变量 $D$ ，而两个选手的实力完全一致，那么两个选手的各一次起跳就算做两个独立同分布变量的试验，即便两人落地的脚印十分接近但总会存在差距空间，即便这个差距十分的微小，但由于是连续变量，所以无论多么微小的差距都是存在，不可能完全重合，所以 $D_1与D_2$ 也不能完全相等。当然换到数学语句上就是单一点的定积分为 $0$
于是结合离散型随机变量可以得出以下结论:
如果有两个独立同分布的连续型随机变量 $X_1,X_2$
$P(X_1<X_2)=P(X_2<X_1)=\frac{1}{2}$
同时如果有两个独立同分布的离散型随机变量 $Y_1,Y_2$
$P(Y_1<Y_2)=P(Y_2<Y_1)$ 但由于离散型中 $P(Y_1=Y_2)>0$ 是存在有意义的,
所以 $P(Y_1<Y_2)=P(Y_2<Y_1)<\frac{1}{2}$
引申一下我们可以得到一个通用的性质即：
如果有一列独立同分布的连续型随机变量 $X_1,X_2,...X_n$ ，则对于 $1, . . ., n$ 的任一排列 $a_1,...,a_n$ ,有 $P(X_{a_1}<\cdot\cdot\cdot<X_{a_n})=\frac{1}{n!}$ 。话句话说就是如果对所有随机变量进行一次试验，然后对结果的大小进行排序，那么任何可能的排序出现的概率是相等的，又由于 $n$ 个变量的所有可能排序数目为 $n!$ ，所以任一排列出现的概率为 $\frac{1}{n!}$ ,而对于某一随机变量比如 $X_n$ ,它为最大值的概率是
$P(X_n>\{x_1,...,X_{n-1}\})=\frac{(n-1)!}{n!}=\frac{1}{n}$
因为只要 $X_n$ 最大，那么其余 $n - 1$ 个随机变量可以任意排列，即在 $(n - 1)!$ 种可能情况下， $X_n$ 会最大