概率论与数理统计——随机变量及其分布

本文介绍了离散型随机变量的0-1分布、二项分布和泊松分布,以及它们之间的关系,重点讲解了泊松分布的物理意义和与正态分布的关系。同时,文章深入剖析了连续性随机变量,包括均匀分布、指数分布和正态分布,展示了正态分布的中心极限定理的应用。
摘要由CSDN通过智能技术生成

一、离散型随机变量分布

1、0-1分布

随机变量X只可能取0与1两个值,它的分布律为P{X=k}=P\{X=k\}=p^{k}(1-p)^{1-k},k=0,1

(0<p<1)

2、二项分布

试验E只有两个可能结果:A和\overline A,则称E为伯努利试验,将E独立重复地进行n次,则称为n重伯努利试验。注意这里的重复指的是每次试验中的P(A)=p保持不变,典型的例子是抛硬币n次。

n重伯努利试验中A发生k次的概率为:

P\{X=k\}=\binom{n}{k}p^kq^{n-k},q=1-p,k=0,1,2,...,n.

此时称X服从参数为n,p的二项分布,记作X~b(n,p)

3、泊松分布

先介绍下泊松分布的物理意义,日常生活中,大量事件是有固定频率的,比如:

  • 某医院平均每小时出生3个婴儿
  • 某公司平均每10分钟接到1个电话
  • 某超市平均每天销售4包xx牌奶粉
  • 某网站平均每分钟有2次访问

 它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。泊松分布就是描述某段时间内,事件具体的发生概率。

设X所有可能的值为0,1,2,...,取各个值的概率为P\{X=k\}=\frac{\lambda ^ke^{-\lambda}}{k!},k=0,1,2,...,其中λ是大于0的常数,则称X服从参数为λ的泊松分布。

泊松分布的参数λ是 单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布的期望和方差均为λ。

正态分布是所有分布趋于极限大样本的分布,属于连续分布。二项分布与泊松分布,则都是离散分布,二项分布的极限分布是泊松分布、泊松分布的极限分布是正态分布,即np=λ,当n很大时,可以近似相等。当n很大时(还没达到连续的程度),可以用泊松分布近似代替二项分布;当n再变大,几乎可以看成连续时,二项分布和泊松分布都可以用正态分布替代。

二、连续性随机变量

1、均匀分布

连续型随机变量X具有如下的概率密度:

f(x)=\left\{\begin{matrix} \frac{1}{b-a}, a<x<b, & \\ 0,others,& \end{matrix}\right.

则称X在区间(a,b)上服从均匀分布,记作X~U(a, b)

2、指数分布

连续型随机变量X具有如下的概率密度:

f(x)=\left\{\begin{matrix} \frac{1}{\theta } e^{-\frac{x}{\theta}}, x>0,& \\ 0, others, & \end{matrix}\right.

其中θ>0为常数,则称X服从参数为θ的指数分布,指数分布的随机变量X有以下有用的性质:

对于任意的s,t > 0:P{ X > s+t | X > s } = P{ X > t },这称为指数分布的无记忆性。

高等教材中对于无记忆性的举例是:如果X是一种电器元件的使用寿命,已知元件已经使用了s小时,那么它总共能使用t+s小时的条件概率,与从开始使用时算至少能使用t小时的概率相同,这就是说,元件对于它已经使用过的s小时没有记忆。

乍一看这段话毫无根据,生活中使用得越久的电器肯定越容易坏呀,实际上这个例子考虑的是理想电器元件,它的失效概率与使用时间无关。但是教材中并没有把这个假设声明出来,感觉有点生搬硬套,国内的理科教材基本都有这个通病,上来就是公式定理,对于背后代表的物理实在只字不提。知乎上有类似的问题如何理解指数分布的无记忆性?和比较好的回答,引用一下:

无记忆性可看作“沉没成本不是成本”的数学表述,以投硬币的例子来说,根据上面公式来理解,投硬币这个重复动作已经投了s 秒,你第一次投到正面朝上还需要 t 秒的概率与你重新做实验需要 t 秒投到正面朝上的概率是一样的。延伸来说,第一次正面朝上所需的时间x的概率与实验所在的时间点没有关系。 无论是时间已经过了3分钟,还是时间已经过了8分钟,还是刚开始做实验,第一次正面朝上所需的时间x的概率都是一样的。也就是说,过去的实验不影响未来事件发生的概率。前面用的所需时间是针对指数分布来说的。如果用投硬币次数 (几何分布)来理解,对于同一个硬币,硬币正面朝上,还要投x次的概率与你已经投了多少次硬币是没有关系的。 以客服电话的例子来理解无记忆性。假设该客服8点开始上班接客服电话。她在刚上班时要等x秒才接到下一个客服电话的概率与已经等了半小时、或者1小时,或者 2小时后,还要等待x秒,才接到下一个客服电话的概率是一样的。

3、正态分布

❝ 神说,要有正态分布,就有了正态分布。
神看正态分布是好的,就让随机误差服从了正态分布。
——创世纪—数理统计

正态分布对于数理统计学来说,那简直太重要了。下面这些基本都符合正态分布:

  1. 人群的身高
  2. 成年人的血压
  3. 传播中的粒子的位置
  4. 测量误差
  5. 回归中的残差
  6. 人群的鞋码
  7. 一天中雇员回家的总耗时
  8. 教育指标

正态分布只依赖于数据集的两个特征:样本的均值和方差。大自然中发现的变量,大多近似服从正态分布。 why? 这个现象可以由中心极限定理解释:如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。怎么理解中心极限定理CLT呢?

选取一个均匀分布[0,1],它被称为均匀分布,因为在0和1之间选择值的概率相等,因此它的概率密度函数(PDF)是水平的直线。现在,让我们假设我们从这个分布中随机抽取20个样本(绿点)并计算这些样本的均值,我们得到一个值,在这个例子中是0.5,用虚线表示。让我们把这个平均值画在直方图上。由于这个柱状图到目前为止只有一个平均值,它并没有告诉我们任何其他信息(左图)。继续从相同的分布中提取更多的随机样本,计算各自的平均值并将这些平均值绘制在直方图上,我们开始得到一个有趣的结果。

随着我们从均匀分布中抽取越来越多的随机样本,并在直方图上绘制样本均值,我们得到一个正态分布结果如下(见右曲线)。

 上面只是举了一个例子,实际上无论左侧的分布是什么样的(除了一个特殊的柯西分布),抽样得到的结果都是右侧的正态分布。因此,它在这一点上变得非常直观,中心极限定理意味着什么?中心极限定理意味着即使数据分布不是正态的,从中抽取的样本均值的分布也是正态的。

下面就是正态分布的概率密度函数:

f(x)=\frac{1}{\sqrt{2\pi \sigma }}e^{-\frac{(x-\mu )^2}{2\sigma ^2}}, -\infty < x < +\infty,

其中μ、σ(σ>0)为常数,则X服从参数为μ、σ的正态分布(高斯分布),记作X~N(μ,σ^2),曲线关于x=μ对称,当x=μ时取得最大值。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值