一、离散型随机变量分布
1、0-1分布
随机变量X只可能取0与1两个值,它的分布律为P{X=k}=,k=0,1
(0<p<1)
2、二项分布
试验E只有两个可能结果:A和,则称E为伯努利试验,将E独立重复地进行n次,则称为n重伯努利试验。注意这里的重复指的是每次试验中的P(A)=p保持不变,典型的例子是抛硬币n次。
n重伯努利试验中A发生k次的概率为:
此时称X服从参数为n,p的二项分布,记作X~b(n,p)
3、泊松分布
先介绍下泊松分布的物理意义,日常生活中,大量事件是有固定频率的,比如:
- 某医院平均每小时出生3个婴儿
- 某公司平均每10分钟接到1个电话
- 某超市平均每天销售4包xx牌奶粉
- 某网站平均每分钟有2次访问
它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。泊松分布就是描述某段时间内,事件具体的发生概率。
设X所有可能的值为0,1,2,...,取各个值的概率为其中λ是大于0的常数,则称X服从参数为λ的泊松分布。
泊松分布的参数λ是 单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布的期望和方差均为λ。
正态分布是所有分布趋于极限大样本的分布,属于连续分布。二项分布与泊松分布,则都是离散分布,二项分布的极限分布是泊松分布、泊松分布的极限分布是正态分布,即np=λ,当n很大时,可以近似相等。当n很大时(还没达到连续的程度),可以用泊松分布近似代替二项分布;当n再变大,几乎可以看成连续时,二项分布和泊松分布都可以用正态分布替代。
二、连续性随机变量
1、均匀分布
连续型随机变量X具有如下的概率密度:
则称X在区间(a,b)上服从均匀分布,记作X~U(a, b)
2、指数分布
连续型随机变量X具有如下的概率密度:
其中θ>0为常数,则称X服从参数为θ的指数分布,指数分布的随机变量X有以下有用的性质:
对于任意的s,t > 0:P{ X > s+t | X > s } = P{ X > t },这称为指数分布的无记忆性。
高等教材中对于无记忆性的举例是:如果X是一种电器元件的使用寿命,已知元件已经使用了s小时,那么它总共能使用t+s小时的条件概率,与从开始使用时算至少能使用t小时的概率相同,这就是说,元件对于它已经使用过的s小时没有记忆。
乍一看这段话毫无根据,生活中使用得越久的电器肯定越容易坏呀,实际上这个例子考虑的是理想电器元件,它的失效概率与使用时间无关。但是教材中并没有把这个假设声明出来,感觉有点生搬硬套,国内的理科教材基本都有这个通病,上来就是公式定理,对于背后代表的物理实在只字不提。知乎上有类似的问题如何理解指数分布的无记忆性?和比较好的回答,引用一下:
无记忆性可看作“沉没成本不是成本”的数学表述,以投硬币的例子来说,根据上面公式来理解,投硬币这个重复动作已经投了s 秒,你第一次投到正面朝上还需要 t 秒的概率与你重新做实验需要 t 秒投到正面朝上的概率是一样的。延伸来说,第一次正面朝上所需的时间x的概率与实验所在的时间点没有关系。 无论是时间已经过了3分钟,还是时间已经过了8分钟,还是刚开始做实验,第一次正面朝上所需的时间x的概率都是一样的。也就是说,过去的实验不影响未来事件发生的概率。前面用的所需时间是针对指数分布来说的。如果用投硬币次数 (几何分布)来理解,对于同一个硬币,硬币正面朝上,还要投x次的概率与你已经投了多少次硬币是没有关系的。 以客服电话的例子来理解无记忆性。假设该客服8点开始上班接客服电话。她在刚上班时要等x秒才接到下一个客服电话的概率与已经等了半小时、或者1小时,或者 2小时后,还要等待x秒,才接到下一个客服电话的概率是一样的。
3、正态分布
❝ 神说,要有正态分布,就有了正态分布。
神看正态分布是好的,就让随机误差服从了正态分布。
——创世纪—数理统计
❞
正态分布对于数理统计学来说,那简直太重要了。下面这些基本都符合正态分布:
- 人群的身高
- 成年人的血压
- 传播中的粒子的位置
- 测量误差
- 回归中的残差
- 人群的鞋码
- 一天中雇员回家的总耗时
- 教育指标
正态分布只依赖于数据集的两个特征:样本的均值和方差。大自然中发现的变量,大多近似服从正态分布。 why? 这个现象可以由中心极限定理解释:如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。怎么理解中心极限定理CLT呢?
选取一个均匀分布[0,1],它被称为均匀分布,因为在0和1之间选择值的概率相等,因此它的概率密度函数(PDF)是水平的直线。现在,让我们假设我们从这个分布中随机抽取20个样本(绿点)并计算这些样本的均值,我们得到一个值,在这个例子中是0.5,用虚线表示。让我们把这个平均值画在直方图上。由于这个柱状图到目前为止只有一个平均值,它并没有告诉我们任何其他信息(左图)。继续从相同的分布中提取更多的随机样本,计算各自的平均值并将这些平均值绘制在直方图上,我们开始得到一个有趣的结果。
随着我们从均匀分布中抽取越来越多的随机样本,并在直方图上绘制样本均值,我们得到一个正态分布结果如下(见右曲线)。
上面只是举了一个例子,实际上无论左侧的分布是什么样的(除了一个特殊的柯西分布),抽样得到的结果都是右侧的正态分布。因此,它在这一点上变得非常直观,中心极限定理意味着什么?中心极限定理意味着即使数据分布不是正态的,从中抽取的样本均值的分布也是正态的。
下面就是正态分布的概率密度函数:
其中μ、σ(σ>0)为常数,则X服从参数为μ、σ的正态分布(高斯分布),记作X~N(μ,σ^2),曲线关于x=μ对称,当x=μ时取得最大值。