目录
1. 概率分布的基本概念
1.1 随机事件
在同一组条件下,对某事物或现象所进行的观察或实验叫做试验,把观察或的结果叫做事件
- 随机事件(random event)。在同一组条件下,每次试验可能出现也可能出现的事件,也叫偶然事件
- 必然事件(certain event)。在同一组条件下,每次试验一定出现的事件
- 不可能事件(impossible event)。在同一组条件下,每次试验一定不出现的事件
概率论研究的总是随机事件,并且把必然事件与不可能事件包括在随机事件内作为两个极端来看待
1.2. 古典概率
设一个试验有N个等可能性的结果,而事件A包含了M个结果,那么事件E的概率,记为P(A)定义为:P(A)=M/N;
因为每个等可能基本事件概率为1/N,因此M个自然就是M/N
1.3. 条件概率
条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率:P(A|B)=P(A∩B)/P(B),条件概率有时候也称为后验概率
-
统计独立性:当且仅当两个随机事件 A 与 B 满足 P(A∩B)=P(A)P(B),它们是统计独立的,这样联合概率可以表示为各自概率的简单乘积。同样的,对于两个独立事件 A 与 B 有 P(A|B)=P(A),P(B|A)=P(B)。
-
互斥性:当且仅当 A 与 B 满足 P(A∩B)=0,且 P(A)≠0,P(B)≠0 的时候,A 与 B 是互斥的。因此 P(A|B)=0,P(B|A)=0
互斥事件一定不独立(因为一件事的发生导致了另一件事不能发生);独立事件一定不互斥,(如果独立事件互斥, 那么根据互斥事件一定不独立,那么就矛盾了),但是在概率形式上具有一些巧合性,一般地:
但是,对于两个独立事件,依然可以等于0,因为事件A或者事件B发生的概率可能为0.所以,并不是一定表示互斥。互斥和独立的理解还是要究其真正意义,而不是表达形式。
1.4. 随机变量
随机变量和随机事件密切相关。随机变量可以进一步分为离散变量和连续变量
- 离散随机变量:随机变量X的取值是有限的或者是可数无穷尽的值,例如:企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得
- 连续随机变量:X由全部实数或者由一部分区间组成,连续随机变量的取值是不可数及无穷尽的。例如灯泡的寿命,从0到正无穷(理论上)都有可能。人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得
1.5. 期望
在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
小数定律: 如果统计数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟它的期望值一点关系也没有
大数定律: 如果统计数据足够大,那么事物出现的频率就能无限接近它的期望值。
2. 离散变量概率分布
离散型概率分布的概率函数被称为概率质量函数,离散型概率分布的种类有很多,比较常见的有二项分布、多项分布、超几何分布和泊松分布等
2.1. 伯努利分布
0-1分布又名两点分布,或叫伯努利分布
进行一次伯努利试验, 成功(X=1)概率为p(0<=p<=1), 失败(X=0)的概率1-p, 则称随机变量X服从伯努利分布,其概率质量函数为:
2.2. 二项分布
定义:二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布就成了0-1分布或两点分布
二项分布有以下性质:
- 一次试验有且仅有两种可能结果:“成功”和“失败”,两个结果是随机决定且互斥的。
- 每次试验中,成功的概率是P,失败的概率是1-P,并且成功和失败的概率是常数或近似于不变。
- 各次试验之间相互独立,每次试验结果不受其它各次试验结果的影响
概率质量函数x~B(n,p)
n和p是二项分布的两个决定参数,一对(n,p)参数可以确定一个二项分布,因此,二项分布是一个概率分布族,随着决定参数的不同而变化
2.3. 泊松分布
泊松概率分布是考虑在连续时间和空间单位上发生的随机事件的概率。
通俗解释:基于过去的经验,预测该随机事件在新的同样长的时间或同样大的空间中发生N次的概率。
泊松分布经常用于商业中的库存控制。诸如,一家海鲜餐厅过去一个月顾客平均订购7只龙虾,如果该餐厅希望今后能有95%的把握满足顾客需求,需要储存龙虾的数量。
3. 连续变量概率分布
对任何连续型概率分布,曲线下方的总面积都等于 1(概率总和 100%),连续型概率分布对应的函数被称为概率密度函数。常用的连续型概率分布有指数分布、均匀分布、正态分布、伽马分布、偏态分布、贝塔分布、威布尔分布,F分布和卡方分布
3.1. 均匀分布
均匀概率分布是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,所有的连续型数据结果所对应的概率相等
- 概率密度函数
- 概率函数示意图
- 概率公式
3.1. 正态分布
正态概率分布是所有概率分布中最重要的形式,因为它表明被测事物处在稳定的状态下,测量数据的波动是由偶然因素引起的,所以在实践中有着广泛的应用。自然环境和人类社会的很多事物都会自发形成稳定的系统,因此,在这些环境下,许多事物和现象的分布都服从正态分布。正态分布的重要性还体现在样本数据推断总体时,当样本的数量足够大,可以利用样本的某些特征数据服从正态分布,从而能够完成推断过程,得到准确的推断结果
正态分布中还具有特殊的性质:经验法则(6西格玛法则)
68.3% 的数据会分布在均值± 1个标准差范围内
95.4% 的数据会分布在均值± 2个标准差范围内
99.7% 的数据会分布在均值± 3 个标准差范围内
将μ=0和σ=1带入上式,可以得到标准正态分布的概率密度函数:
3.1. 指数分布
指数分布描述的是两次随机事件发生的时间间隔的概率分布情况,这里的时间间隔指的是一次随机事件发生到下一次随机事件再发生的时间间隔。例如,某医院过去平均每10分钟出生一个婴儿,求接下来5分钟内有婴儿出生的概率
- 概率密度函数:
- 离散型概率分布可以直接通过概率质量函数计算概率,而连续型分布则不能,需要通过对概率密度函数曲线下方的面积进行积分,积分面积才是所求的概率(见下图)。指数分布的概率密度函数经过积分后得到概率计算公式为:
- 区别: 指数分布与泊松分布正好互补,泊松分布能够根据过去单位时间内随机事件的平均发生次数,推断未来相同的单位时间内随机事件发生不同次数的概率。而指数分布的作用是根据随机事件发生一次的平均等待时间来推断某个时间段内,随机事件发生的概率