0.大纲:
1.什么是概率分布?
概率分布就是随机变量与对应概率关系的函数。换句话说,概率分布就是随机变量和概率的映射,所有的事件都会对应一个概率。某个随机变量的所有概率形成的概率-事件分布就是该随机变量的概率分布,会用一个函数来表达概率分布。显然,包含了所有事件的话,分布的概率之和(连续随机变量则时概率密度函数的积分)肯定就等于1。
当随机变量为离散变量时,这个函数叫做概率质量函数,当随机变量连续时,对应的函数称为概率密度函数。在概率统计学的中有一个计算概率密度函数的方法——核密度估计(KDE)、这是一种非参数估计分布密度函数的方法,仅通过对数据本身的特征来计算概率密度函数,不依赖任何数据分布的先验知识,这弥补了下面介绍的参数估计方法的劣势——样本分布和实际的分布可能存在巨大差异,无法通过观察或者理论推导出实际的分布。
与非参数估计对应的就是参数估计,具体的操作是,先观察样本的分布情况/根据样本来源假定数据服从特定的形态,然后通过数据估计该形态下的总体参数。一般数据形态有:线性、可线性化、指数。
2.概率分布的分类简介
2.1 关于两种随机变量类型:
- 离散型概率分布:随机变量为离散型的概率分布,即概率和事件的数量都是有限的。例如最基础的抛一次硬币的结果和对应概率形成的分布——伯努利分布(0-1分布)。另外还有:n重伯努利试验对应的二项分布、二项分布的极限分布(n→∞和p→0)泊松分布、二项分布“不放回抽样”版超几何分布、二项分布“第一次成功”版几何分布、“几何分布的推广版”负二项分布。
- 连续型概率分布:随机变量为连续型的概率分布,即概率和事件的数量都是无限的。例如均匀分布、正态分布、指数分布、学生t分布、正态平方卡方分布、卡方比例F分布等。
下面逐一介绍下以上提及的分布:
- 伯努利分布:结果只有两种可能的单次试验对应的概率分布,例如抛一枚硬币试验。
分布图:
概率质量函数:
2. 二项分布:重复多次独立的同概率伯努利试验的试验对应概率分布, 例如抛多次硬币、多次试验之间互相不影响、用的同一枚硬币和相同的抛投方式,保证概率概率相同。而伯努利试验就确保了结果只有两种可能。总结为四个词就是(独立、重复、同概率、结果二元)
分布图:
概率质量函数:
3. 泊松分布:当需要估计某个时间段内发生次数的概率时,可以考虑。关注的不是二项分布的试验进行的次数n和发生的概率,而是两者的乘积 均值 λ = np。
概率质量函数: