概率论与数理统计——随机变量及其分布

最新推荐文章于 2024-08-12 11:55:07 发布

加拉帕戈斯人

最新推荐文章于 2024-08-12 11:55:07 发布

阅读量2.4k

点赞数 1

分类专栏：数学文章标签：概率论

本文链接：https://blog.csdn.net/weixin_41906326/article/details/121582156

版权

数学专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了离散型随机变量的0-1分布、二项分布和泊松分布，以及它们之间的关系，重点讲解了泊松分布的物理意义和与正态分布的关系。同时，文章深入剖析了连续性随机变量，包括均匀分布、指数分布和正态分布，展示了正态分布的中心极限定理的应用。

摘要由CSDN通过智能技术生成

一、离散型随机变量分布

1、0-1分布

随机变量X只可能取0与1两个值，它的分布律为P{X=k}= $P\{X=k\}=p^{k}(1-p)^{1-k}$ ，k=0,1

(0<p<1)

2、二项分布

试验E只有两个可能结果：A和 $\overline A$ ，则称E为伯努利试验，将E独立重复地进行n次，则称为n重伯努利试验。注意这里的重复指的是每次试验中的P(A)=p保持不变，典型的例子是抛硬币n次。

n重伯努利试验中A发生k次的概率为：

$P\{X=k\}=\binom{n}{k}p^kq^{n-k},q=1-p,k=0,1,2,...,n.$

此时称X服从参数为n,p的二项分布，记作X~b(n,p)

3、泊松分布

先介绍下泊松分布的物理意义，日常生活中，大量事件是有固定频率的，比如：

某医院平均每小时出生3个婴儿
某公司平均每10分钟接到1个电话
某超市平均每天销售4包xx牌奶粉
某网站平均每分钟有2次访问

它们的特点就是，我们可以预估这些事件的总数，但是没法知道具体的发生时间。泊松分布就是描述某段时间内，事件具体的发生概率。

设X所有可能的值为0，1，2，...，取各个值的概率为 $P\{X=k\}=\frac{\lambda ^ke^{-\lambda}}{k!},k=0,1,2,...,$ 其中λ是大于0的常数，则称X服从参数为λ的泊松分布。

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布的期望和方差均为λ。

正态分布是所有分布趋于极限大样本的分布，属于连续分布。二项分布与泊松分布，则都是离散分布，二项分布的极限分布是泊松分布、泊松分布的极限分布是正态分布，即np=λ，当n很大时，可以近似相等。当n很大时（还没达到连续的程度），可以用泊松分布近似代替二项分布；当n再变大，几乎可以看成连续时，二项分布和泊松分布都可以用正态分布替代。

二、连续性随机变量

1、均匀分布

连续型随机变量X具有如下的概率密度：

$f(x)=\left\{\begin{matrix} \frac{1}{b-a}, a<x<b, & \\ 0,others,& \end{matrix}\right.$

则称X在区间(a,b)上服从均匀分布，记作X~U(a, b)

2、指数分布

连续型随机变量X具有如下的概率密度：

$f(x)=\left\{\begin{matrix} \frac{1}{\theta } e^{-\frac{x}{\theta}}, x>0,& \\ 0, others, & \end{matrix}\right.$

其中θ>0为常数，则称X服从参数为θ的指数分布，指数分布的随机变量X有以下有用的性质：

对于任意的s,t > 0：P{ X > s+t | X > s } = P{ X > t }，这称为指数分布的无记忆性。

高等教材中对于无记忆性的举例是：如果X是一种电器元件的使用寿命，已知元件已经使用了s小时，那么它总共能使用t+s小时的条件概率，与从开始使用时算至少能使用t小时的概率相同，这就是说，元件对于它已经使用过的s小时没有记忆。

乍一看这段话毫无根据，生活中使用得越久的电器肯定越容易坏呀，实际上这个例子考虑的是理想电器元件，它的失效概率与使用时间无关。但是教材中并没有把这个假设声明出来，感觉有点生搬硬套，国内的理科教材基本都有这个通病，上来就是公式定理，对于背后代表的物理实在只字不提。知乎上有类似的问题如何理解指数分布的无记忆性？和比较好的回答，引用一下：

无记忆性可看作“沉没成本不是成本”的数学表述，以投硬币的例子来说，根据上面公式来理解，投硬币这个重复动作已经投了s 秒，你第一次投到正面朝上还需要 t 秒的概率与你重新做实验需要 t 秒投到正面朝上的概率是一样的。延伸来说，第一次正面朝上所需的时间x的概率与实验所在的时间点没有关系。无论是时间已经过了3分钟，还是时间已经过了8分钟，还是刚开始做实验，第一次正面朝上所需的时间x的概率都是一样的。也就是说，过去的实验不影响未来事件发生的概率。前面用的所需时间是针对指数分布来说的。如果用投硬币次数（几何分布）来理解，对于同一个硬币，硬币正面朝上，还要投x次的概率与你已经投了多少次硬币是没有关系的。以客服电话的例子来理解无记忆性。假设该客服8点开始上班接客服电话。她在刚上班时要等x秒才接到下一个客服电话的概率与已经等了半小时、或者1小时，或者 2小时后，还要等待x秒，才接到下一个客服电话的概率是一样的。

3、正态分布

❝ 神说，要有正态分布，就有了正态分布。
神看正态分布是好的，就让随机误差服从了正态分布。
——创世纪—数理统计
❞

正态分布对于数理统计学来说，那简直太重要了。下面这些基本都符合正态分布：

人群的身高
成年人的血压
传播中的粒子的位置
测量误差
回归中的残差
人群的鞋码
一天中雇员回家的总耗时
教育指标

正态分布只依赖于数据集的两个特征：样本的均值和方差。大自然中发现的变量，大多近似服从正态分布。 why? 这个现象可以由中心极限定理解释：如果样本量足够大，则变量均值的采样分布将近似于正态分布，而与该变量在总体中的分布无关。怎么理解中心极限定理CLT呢？

选取一个均匀分布[0,1]，它被称为均匀分布，因为在0和1之间选择值的概率相等，因此它的概率密度函数(PDF)是水平的直线。现在，让我们假设我们从这个分布中随机抽取20个样本(绿点)并计算这些样本的均值，我们得到一个值，在这个例子中是0.5，用虚线表示。让我们把这个平均值画在直方图上。由于这个柱状图到目前为止只有一个平均值，它并没有告诉我们任何其他信息（左图）。继续从相同的分布中提取更多的随机样本，计算各自的平均值并将这些平均值绘制在直方图上，我们开始得到一个有趣的结果。

随着我们从均匀分布中抽取越来越多的随机样本，并在直方图上绘制样本均值，我们得到一个正态分布结果如下(见右曲线)。

上面只是举了一个例子，实际上无论左侧的分布是什么样的(除了一个特殊的柯西分布)，抽样得到的结果都是右侧的正态分布。因此，它在这一点上变得非常直观，中心极限定理意味着什么？中心极限定理意味着即使数据分布不是正态的，从中抽取的样本均值的分布也是正态的。

下面就是正态分布的概率密度函数：

$f(x)=\frac{1}{\sqrt{2\pi \sigma }}e^{-\frac{(x-\mu )^2}{2\sigma ^2}}, -\infty < x < +\infty,$

其中μ、σ(σ>0)为常数，则X服从参数为μ、σ的正态分布(高斯分布)，记作X~N(μ,σ^2)，曲线关于x=μ对称，当x=μ时取得最大值。

加拉帕戈斯人

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
概率论与数理统计——随机变量及其分布

一、离散型随机变量分布1、0-1分布随机变量X只可能取0与1两个值，它的分布律为P{X=k}=，k=0,1(0<p<1)2、伯努利试验、二项分布试验E只有两个可能结果：A和，则称E为伯努利试验，将E独立重复地进行n次，则称为n重伯努利试验。注意这里的重复指的是每次试验中的P(A)=p保持不变，典型的例子是抛硬币n次。n重伯努利试验中A发生k次的概率为：此时称X服从参数为n,p的二项分布，记作X~b(n,p)3、泊松分布先介绍下泊松分布的物理意义，日常生活中
复制链接

扫一扫