随机变量及其分布概率论复习笔记

最新推荐文章于 2024-10-11 16:29:11 发布

黑叶白树

最新推荐文章于 2024-10-11 16:29:11 发布

阅读量324

点赞数 9

文章标签：概率论笔记

本文链接：https://blog.csdn.net/b227737437/article/details/142855995

版权

随机变量及其分布

1.定义

随机变量是一个从样本空间（所有可能结果的集合）到实数集的函数。样本空间中的每个结果都对应于随机变量的一个值。随机变量的值可以是离散的，也可以是连续的。随机变量通常用大写字母表示，如 X、Y 或 Z。

随机变量和事件的联系

定义事件：

事件可以定义为随机变量取特定值的集合。一般用{X=?}表示。

例如，如果随机变量 X 表示掷骰子的结果，那么事件 “掷得奇数” 可以表示为 {X=1} 或 {X=3}或 {X=5}。

使用随机变量描述事件：

随机变量的值可以定义复杂的事件。

例如，事件 “掷骰子的结果大于4” 可以表示为 {X>4}，其中 X 是随机变量。

例如，掷硬币的结果为正面、反面，在数学中不方便描述，可以将正面映射为数字1，反面映射为0，那么事件"掷出正面"可以表示为{X=1}，事件"掷出反面"可以表示为{X=0}。

概率分布：

随机变量的概率分布描述了它取每个可能值的概率。这个分布可以用来计算事件的概率。在随机变量表示的事件前加上P来表示：P{X=?}或者P(X=?)。

例如，随机变量 X 的概率质量函数（PMF）或概率密度函数（PDF）可以用来计算 P(X=k) 或 P(a<X<b)。

2.离散型随机变量及其概率分布

离散型随机变量的特点：

可数性：随机变量的取值是可数的，即有限个或可数无限个。
离散性：取值之间有“间隔”，不是连续变化的。
概率分布：每个取值都有一个特定的概率，且所有取值的概率之和等于1。

离散型随机变量的概率分布：

离散型随机变量的概率分布通常由概率质量函数（Probability Mass Function, PMF）描述。PMF 定义了随机变量每个可能取值的概率。

概率质量函数（PMF）：

对于离散型随机变量 X，其概率质量函数为
$P (X = x)$
，其中 x* 是 X 可能取的值。PMF 满足以下条件：

非负性：对于所有的 x，有 P(X=x)≥0。
归一性：所有可能取值的概率之和等于1，即
$_xP(X=x)=1$

例子

假设由5个黑球，3个白球，每次取一个球不放回，直到取到黑球为止，X为取到白球的数量，求取到黑球的概率。

解：

根据题意，取到黑球的事件分为以下几种情况：

1.第一次就取到黑球，那么取到白球的数量为0，记为{X=0}

2.第一次取到白球，第二次取到黑球，那么取到白球的数量为1，记为{X=1}

3.第一、二次取到白球，第三次取到黑球，那么取到白球的数量为2，记为{X=2}

4.前三次都取到白球，第四次取到黑球，那么取到白球的数量为3，记为{X=3}

5.白球总共有3个，不会出现4个白球，所以情况列举结束。

根据上述事件分别计算取到黑球的概率：

第一种情况：

从8个球中直接取到黑球
$P(X=0)=\dfrac{5}{8}$
第二种情况：

先从8个球中取到白球，再从剩下的7个球中取到黑球
$P(X=1)=\dfrac{3}{8}\times \dfrac{5}{7}=\dfrac{15}{56}$
第三种情况：

第一次从8个球中取到白球，第二次从剩下的7个球中取到白球，第三次从剩下的6个球中取到黑球
$P(X=2)=\dfrac{3}{8}\times \dfrac{2}{7}\times \dfrac{5}{6}=\dfrac{5}{56}$
第四种情况：

第一次从8个球中取到白球，第二次从剩下的7个球中取到白球，第三次从剩下的6个球中取到白球，第四次从剩下的5个球中取到黑球
$P(X=3)=\dfrac{3}{8}\times \dfrac{2}{7}\times \dfrac{1}{6}\times \dfrac{5}{5}=\dfrac{1}{56}$
画出概率分布表：

X	0	1	2	3
P	5/8	15/56	5/56	1/56

验证总概率：
$\dfrac{5}{8}+\dfrac{15}{56}+\dfrac{5}{56}+\dfrac{1}{56}=1$

3.连续型随机变量及其概率密度函数

连续型随机变量是取值可以是某个区间内任意实数的随机变量。与离散型随机变量不同，连续型随机变量的取值是连续的，不可数的。连

续型随机变量的概率分布通常由概率密度函数（Probability Density Function, PDF）描述。

连续型随机变量的特点：

连续性：随机变量的取值是连续的，可以在一个或多个区间内取任意值。
不可数性：取值是不可数的，即有无限多个可能的取值。
概率分布：每个取值区间都有一个特定的概率，且整个取值范围的概率密度函数积分等于1。
连续型的随机变量取值在任意一点的概率都是0。在函数曲线上某个点的概率其实是取的该点附近值的大小。
连续情况下，端点无所谓。P{a≤x≤b}=P{a＜x＜b}

概率密度函数

对于一维实随机变量X，如果存在非负可积函数f(x)，使得对于任意实数x，
$a\leq b$
有
$P(a<X\leq b)=\int _a^bf(x)dx$
，则称f(x)为随机变量X的概率密度函数。

密度函数f(x) 具有下列性质：

非负性：对于所有的 x，有
$f(x)\geq 0$
归一性：概率密度函数在整个取值范围的积分等于1，即
$\int _{-\infty}^{+\infty}f(x)dx=1$
概率密度函数的积分其实就是求曲线在某个区间内的面积。

例子

假设密度函数
$f(x)=\begin{cases}kx+1,0\leq x \leq 2\\0,其它\end{cases}$
求k的值。

解：根据概率密度函数
$\int _{-\infty}^{+\infty}f(x)dx=1$
可知，在[0,2]区间以外的函数值都为0，所以
$\int _{-\infty}^{+\infty}f(x)dx=\int _{0}^{2}f(x)dx$
计算定积分
$\int _{0}^{2}f(x)dx=\int _{0}^{2}kx+1dx=(\dfrac{k}{2}x^2+x)|_0^2=2k+2$
由于
$\int _{0}^{2}f(x)dx=1$
所以
$2 k + 2 = 1$
得出
$k=-\dfrac{1}{2}$

4.分布函数

分布函数是描述随机变量取值分布情况的函数，无论是离散型随机变量还是连续型随机变量，都可以通过分布函数来描述其概率特性。分布函数通常指的是累积分布函数（Cumulative Distribution Function, CDF），用 F(x) 表示。

累积分布函数（CDF）

对于随机变量 X，其累积分布函数 F(x) 定义为随机变量 X 取值小于或等于 x 的概率：
$F (x) = P (X \leq x)$
CDF 的性质

非减性：随着 x 的增加，F(x) 是非减的，即 F(x1)≤F(x2)对于所有的 x1≤x2 成立。
范围：F(x)的值域在 0 到 1 之间，即 0≤F(x)≤1。
边界条件：
$\lim⁡ _{x\rightarrow −\infty}F(x)=0和 \lim⁡ _{x\rightarrow +\infty}F(x)=1$
右连续：F(x) 在任意点 x 都是右连续的。对于离散型随机变量，F(x) 在任意点 x 是右连续，对于连续型随机变量，F(x) 在任意点 x 是连续的。

公式
$P(X≤x)\\ P(X≤a) = F(a)\\ P(X>a) = 1-P(X≤a) = 1-F(a)\\ P(a<X≤b) = P(X≤b)-P(X≤a)=F(b)-F(a)$
对于不同类型随机变量的CDF

离散型随机变量：
- 对于离散型随机变量，CDF 是阶梯式的，每个可能的取值点都有一个跳跃。
- 累积分布函数 F(x) 可以表示为：
  $F(x)=P(X≤x)=∑_{y≤x}P(X=y)$
连续型随机变量：
- 对于连续型随机变量，CDF 是概率密度函数（PDF）的积分，并且是连续且光滑的（除非在某些点上有跳跃）。
- 累积分布函数 F(x) 可以表示为：
  $F(x)=P(X≤x)=∫_{−∞}^xf(t) dt$

分布函数其实就是求曲线在某个区间内的面积。

例子

1.假设概率分布表如下：

X	-1	2	3
P	1/2	1/3	1/6

求分布函数F(x)

解：

分布函数F(x)的x取值范围为[−∞,+∞]

根据概率分布表划分x的取值范围：

当x<-1：
$F (x) = P (X \leq x) = 0$
随机变量X比x还要小，在分布表中没有对应的概率，表示是不可能事件，所以概率为0

当-1≤x<2：
$F(x)=P(X≤x)=∑_{y≤x}P(X=y)=1/2$
在当前x的取值范围内，在分布表中有x=-1的概率，所以F(x)就是x=-1的概率

当2≤x<3:
$F(x)=P(X≤x)=∑_{y≤x}P(X=y)=1/2+1/3=5/6$
在x的取值范围内随机变量X比x要小的点有-1、2，所以是-1、2点概率之和

当3≤x：
$F(x)=P(X≤x)=∑_{y≤x}P(X=y)=1/2+1/3+1/6=1$
所以分布函数为：
$F(x)=\begin{cases} 0,x<-1\\ \dfrac{1}{2},-1≤x<2\\ \dfrac{5}{6},2≤x<3\\ 1,3≤x \end{cases}$
从以上例子可以看出，离散型随机变量分布函数就是找x的右区间，然后将小于右区间值的概率相加。

2.假设函数：
$f(x)=\begin{cases} -\dfrac{1}{2}x+1,0≤x≤2\\ 0,其它 \end{cases}$
求分布函数F(x)

解：

分布函数F(x)的x取值范围为[−∞,+∞]

当x<0时：
$F(x)=P(X≤x)=∫_{−∞}^xf(t) dt=0$
当0≤x<2时：
$F(x)=∫_{−∞}^xf(t) dt=∫_{−∞}^0f(t) dt+∫_0^xf(t) dt=0+∫_0^x(-\dfrac{1}{2}t+1) dt=-\dfrac{1}{4}x^2+x$
当2≤x时：
$F(x)=∫_{−∞}^xf(t) dt=∫_{−∞}^0f(t) dt+∫_{0}^2f(t) dt+∫_{2}^{+∞}f(t) dt=0+∫_{0}^2(-\dfrac{1}{2}t+1) dt+0=1$
所以分布函数：
$F(x)=\begin{cases} 0,x<0\\ -\dfrac{1}{4}x^2+x,0≤x<2\\ 1,2≤x \end{cases}$

5.常见的分布

5.1 0-1分布

0-1分布，也称为伯努利分布，是一种特殊的离散概率分布。它描述了在单次伯努利试验中只有两种可能结果的随机变量，通常这两种结果被称为“成功”和“失败”。

对于伯努利随机变量 XX，其概率质量函数为：

$P(X=x)=p^x(1−p)^{1−x}$
其中：

x 可以是0或1。
p 是成功（x=1）的概率。
1−p 是失败（x=0）的概率。

用分布表来表示：

X	1	0
P	p	1-p

0-1分布式伯努利试验只做一次的分布函数，如果是n重伯努利试验，分布函数则为（详见事件概率的伯努利公式）：
$C_n^kp^k(1−p)^{n−k}$

5.2 几何分布

几何分布（Geometric Distribution）是描述在成功之前需要进行的试验次数的离散型概率分布。具体来说，几何分布描述的是在独立重

复的伯努利试验中，首次成功所需的试验次数。

如果随机变量 X 表示获得第一次成功所需的试验次数，那么几何分布的概率质量函数为：
$P(X=k)=(1−p)^{k−1}⋅p$
其中：

k 是获得第一次成功时试验的次数，k=1,2,3,…
p 是单次试验成功的概率。
1−p 是单次试验失败的概率。

简单理解：在试验第k次时试验成功，那么前边k-1次试验都没有成功，所以几何分布表示前边没成功概率的次数
$1−p)^{k−1}$
乘以当前成功的概率。

5.3 二项分布

二项分布的概率质量函数（PMF）：

如果随机变量 X 表示 n 次伯努利试验中成功的次数，那么 X 服从参数为 n 和 p 的二项分布，记作 X∼B(n,p)。二项分布的概率质量函数为：
$P(X=k)=C_n^kp^k(1−p)^{n−k}$
其中：

k 是成功的次数，k=0,1,2,…,n。
$C_n^k$

是组合数，表示从 n 次试验中选择 k 次成功的不同方式的数目，计算公式为
$C_n^k=\dfrac{n!}{k!(n−k)!}$
p 是单次试验成功的概率。
1−p 是单次试验失败的概率。

其实就是事件概率中的伯努利公式。

k的最大可能值：

k 取最接近 (n+1)p 的整数:

(n+1)p不为整数，则取最接近 (n+1)p 的整数为最大值。
(n+1)p为整数，则取 (n+1)p 和(n+1)p-1都是最大值。

5.4 泊松分布

泊松分布（Poisson Distribution）是描述在固定时间或空间内事件发生次数的离散型概率分布。它适用于事件发生的概率较小且事件之间相互独立的情况。

设随机变量 X 服从泊松分布，其参数为 λ，表示单位时间或空间内事件发生的平均次数。则 X 的概率质量函数（PMF）为：
$P(X=k)=\dfrac{λ^k}{k!}e^{−λ}$
其中:

k 是事件发生的次数，k=0,1,2,…。
λ 是单位时间（或单位面积）内事件平均发生的次数。

泊松分布在实际中有广泛的应用，例如：

交通流量分析：描述一段时间内通过某个路口的车辆数。
电话呼叫中心：预测一定时间内接到的电话数量。
生态学：模拟某段时间内到达的候鸟数量。
放射性物质：描述一定时间内放射性物质发射粒子的数量。

当二项分布的试验次数 n 很大而成功概率 p 很小时，二项分布可以用泊松分布来近似。具体来说，如果 n 足够大且 np=λ 保持不变，则二项分布 B(n,p)可以用泊松分布 P(λ)来近似。

5.5 均匀分布

在连续均匀分布中，所有可能的结果是连续的，并且在相同长度间隔的分布概率是相同的。

均匀分布的概率密度函数（PDF）：

对于连续型随机变量 X，如果它服从区间 [a,b]上的均匀分布，其概率密度函数为：
$f(x)=\begin{cases}\dfrac{1}{b−a},& x∈[a,b]\\0,& x∉[a,b]\end{cases}$
其中：

a 是区间的下界。
b 是区间的上界。
b−a 是区间的长度。

为什么f(x)=1/(b-a)?

根据概率密度函数定义可知，在整个取值范围的积分等于1，其积分就是求曲线面积，f(x)在曲线中相当于高，(b−a)相当于曲线的宽，所以曲线面积
$S=宽\times 高=(b-a)\times f(x)=(b-a)\times \dfrac{1}{b-a}=1$
累积分布函数（CDF）：
$F(x)=\begin{cases} 0,& x<a\\ \dfrac{x−a}{b−a},& x∈[a,b]\\ 1,& x>b\end{cases}$
推导：

当x<a：

x不在[a,b]区间内
$F(x)=P(X\leq x)=\int _{-\infty}^xf(t)dt=0$
当a≤x<b时：
$F(x)=P(X\leq x)=\int _{-\infty}^xf(t)dt=\int _{-\infty}^af(t)dt+\int _{a}^xf(t)dt=\int _{a}^x\dfrac{1}{b-a}dt=\dfrac{x−a}{b−a}$
当b≤x时：
$F(x)=P(X\leq x)=\int _{-\infty}^xf(t)dt==\int _{-\infty}^af(t)dt+\int _{a}^bf(t)dt+\int _{b}^{+\infty}f(t)dt=1$

5.6 指数分布

指数分布（Exponential Distribution）是一种连续概率分布，它描述了在两个连续事件发生之间的时间间隔，这两个事件是完全随机

的，且具有恒定的平均发生率。指数分布通常用于模拟独立随机事件发生的时间间隔，如电话呼叫的到达时间、放射性物质的衰变时间

等。

概率密度函数
$f(x)=\begin{cases} λe^{−λx},&x≥0\\ 0,&x<0\end{cases}$
其中：

x 是随机变量，表示事件发生的时间间隔。
λ 是率参数，表示单位时间内事件发生的平均次数。

分布函数
$F(x)=\begin{cases} 1-e^{−λx},&x≥0\\ 0,&x<0\end{cases}$
推导：

当x≥0：
$F(x)=P(X\leq x)=\int _{-\infty}^xf(t)dt=\int _{-\infty}^0f(t)dt+\int _{0}^xf(t)dt=\int _{0}^xf(t)dt\\ =\int _{0}^xλe^{−λt}dt=-\int _{0}^xe^{−λt}d(-λt)=1-e^{−λx}$
当x<0：
$F(x)=P(X\leq x)=\int _{-\infty}^xf(t)dt=0$

5.7 正态分布

正态分布（Normal Distribution），也称为高斯分布（Gaussian Distribution），是连续概率分布的一种。它是统计学中最重要的概率

分布之一，因为许多自然和社会现象的分布都近似于正态分布。正态分布在自然科学和社会科学的许多领域都有应用，包括生物学、物理

学、经济学和社会科学，记作：
$X\sim N(μ,σ^2)$

5.7.1 正态分布

概率密度函数
$f(x)=\dfrac{1}{\sqrt{2π}σ}e^{−\dfrac{(x−μ)^2}{2σ^2}}$
其中：

x 是随机变量。
μ 是均值。
σ是标准差。
σ^2是方差。

性质
（1）y=f(x)以x=u为对称轴
（2）x=u时，f(x)取到最大值
（3）y=f(x)以x轴为渐近线，x±σ为拐点
（4）σ固定，u变化，图像左右移动；u固定，σ变小，最高点上移，σ变大，最高点下移

分布函数
$F(x)=P(X≤x)=\dfrac{1}{\sqrt{2π}σ}∫_{−∞}^xe^{−\dfrac{(t−μ)^2}{2σ^2}}dt$

5.7.2 标准正态分布

标准正态分布的均值为0，标准差为1

概率密度函数
$f(x)=\dfrac{1}{\sqrt{2π}}e^{−\dfrac{x^2}{2}}$
分布函数
$F(x)=\dfrac{1}{\sqrt{2π}}∫_{−∞}^xe^{−\dfrac{t^2}{2}}dt$
性质
（1）y轴是对称轴，为偶函数
（2）概率密度函数：根据偶函数定义可知，
$f_0(x)=f_0(-x)$
（3）分布函数：
$F_0(-x)=1-F_0(x)$
由分布函数的性质作图可知：F(-x)=1-F(x)

5.7.3 正态分布标准化

假设 X 是一个服从正态分布的随机变量，记作
$X∼N(μ,σ^2)$
，其中：
$μ 是均值，σ^2 是方差。$
标准化的步骤如下：

中心化：将 X 减去均值 μ，得到一个新的随机变量 Y：

$Y = x - μ$

此时，
$Y 的均值为0，方差仍为 σ^2。$

标准化：将 Y 除以标准差 σ，得到一个新的随机变量 Z：

$Z=\dfrac{Y}{σ}=\dfrac{x−μ}{σ}$

此时，Z 的均值为0，方差为1，即 Z∼N(0,1)。

标准化的公式

标准化后的随机变量 Z 的公式为：
$Z=\dfrac{x−μ}{σ}$
标准化正态分布和正态分布的关系

概率密度函数：
$f(x)=\dfrac{1}{σ}f_0(\dfrac{x−μ}{σ})$
f(x)：标准正态密度函数；
$f_0(\dfrac{x−μ}{σ}):正太密度函数$
分布函数：
$F(x)=F_0(\dfrac{x−μ}{σ})$
F(x)：标准正态分布函数；
$F_0(\dfrac{x−μ}{σ}):正太分布函数$

6.离散型随机变量函数的分布

离散型随机变量函数的分布通常指的是如何从已知的离散型随机变量出发，通过某种函数关系得到新的随机变量，并确定这个新随机变量

的概率分布。

离散型随机变量函数的分布的计算方法：

假设有一个离散型随机变量 X，其概率质量函数（PMF）为 P(X=x)，现在我们定义一个新的随机变量 Y=g(X)，其中 g 是一个函数。我们想要找到 Y 的概率分布。

1. 直接法：

对于每一个可能的 y 值，我们可以通过以下步骤计算 Y 取值为 y 的概率：

确定 x 的值：找出所有使得 g(x)=y 成立的 x 的值。
计算概率：对于每个满足条件的 x，将 X 取该值的概率相加。

数学上，这可以表示为：
$P(Y=y)=∑_{x∈g^{−1}(y)}P(X=x)$
其中
$g^{−1}(y)$
表示所有使得 g(x)=y成立的 x 的集合。可以理解为y=g(x)的逆函数。

2. 间接法：

如果函数 g 是单调的，或者 Y 的取值范围有限，我们可以通过以下步骤计算 Y 的概率分布：

列出所有可能的 y 值：确定 Y 可能取到的所有值。
计算每个 y 的概率：对于每个 y，计算 P(Y=y)。

对于离散型随机变量函数的分布函数计算，最简单的方法是列出随机变量X的分布表，然后根据新的函数关系计算出新随机变量Y的值，其值对应的概率就是X原来值对应的概率值，然后形成分布表，如果Y值有重复，则将重复值对应的概率相加即可。

例如：

假设随机变量X的分布表：

X	1	2	3
P	0.2	0.5	0.3

求
$Y=X^2$
的概率分布。

解：根据随机变量的函数关系求出Y的值

Y	1	4	9

然后将X对应的概率按顺序填入

Y	1	4	9
P	0.2	0.5	0.3

即得到新的概率分布表。

例子

假设随机变量X的概率分布：

X	-2	-1	0	1	2
P	0.2	0.1	0.5	0.1	0.1

求
$Y=X^4-1$
的概率分布

解：

先根据随机变量的函数关系计算Y值，再将X的概率值填入

Y	15	0	-1	0	15
P	0.2	0.1	0.5	0.1	0.1

可以发现，Y值有重复项，需要将重复项合并，并将对应的概率值相加，合并后：

Y	15	0	-1
P	0.3	0.2	0.5

即得到新的概率分布表。

7.连续型随机变量函数的分布

连续型随机变量函数的分布是指通过一个连续型随机变量 XX 的函数 Y=g(X)得到的新的随机变量 Y 的分布。

计算方法：

分布函数法

计算 Y 的分布函数：

$F_Y(y)=P(Y≤y)=P(g(X)≤y)$

求导得到概率密度函数：

$f_Y(y)=\dfrac{d}{dy}F_Y(y)$

例子

假设随机变量X的概率密度函数为
$f_X(x)$
求
$Y = 3 X + 2$
的密度函数，假设
$f_X(x)$
服从在区间[0,4]的均匀分布：
$f_X(x)=\begin{cases} \dfrac{1}{4},& 0\leq x \leq 4\\ 0,& 其它 \end{cases}$
求
$f_Y(x)$
解：

计算 Y 的分布函数：
$F_Y(x)=P(Y\leq x)=P(3X+2\leq x)=P(X\leq \dfrac{x-2}{3})=F_X(\dfrac{x-2}{3})$

$上述步骤主要是使用F_X(x)来表示F_Y(x)$

求导得到概率密度函数
$f_Y(x)=F_Y'(x)=F_x'(\dfrac{x-2}{3})=\dfrac{1}{3}f_X(\dfrac{x-2}{3})$
根据题意可知，
$f_X(x)=\begin{cases} \dfrac{1}{4},& 0\leq x \leq 4\\ 0,& 其它 \end{cases}$
则
$f_Y(x)=\begin{cases} \dfrac{1}{12},& 2\leq x \leq 14\\ 0,& 其它 \end{cases}$
注意：x的取值区间发生了变化，因为Y=3X+2，所以此时，Y对应的x取值范围也要根据函数的映射关系来确定