0.大纲:
1.什么是概率分布?
概率分布就是随机变量与对应概率关系的函数。换句话说,概率分布就是随机变量和概率的映射,所有的事件都会对应一个概率。某个随机变量的所有概率形成的概率-事件分布就是该随机变量的概率分布,会用一个函数来表达概率分布。显然,包含了所有事件的话,分布的概率之和(连续随机变量则时概率密度函数的积分)肯定就等于1。
当随机变量为离散变量时,这个函数叫做概率质量函数,当随机变量连续时,对应的函数称为概率密度函数。在概率统计学的中有一个计算概率密度函数的方法——核密度估计(KDE)、这是一种非参数估计分布密度函数的方法,仅通过对数据本身的特征来计算概率密度函数,不依赖任何数据分布的先验知识,这弥补了下面介绍的参数估计方法的劣势——样本分布和实际的分布可能存在巨大差异,无法通过观察或者理论推导出实际的分布。
与非参数估计对应的就是参数估计,具体的操作是,先观察样本的分布情况/根据样本来源假定数据服从特定的形态,然后通过数据估计该形态下的总体参数。一般数据形态有:线性、可线性化、指数。
2.概率分布的分类简介
2.1 关于两种随机变量类型:
- 离散型概率分布:随机变量为离散型的概率分布,即概率和事件的数量都是有限的。例如最基础的抛一次硬币的结果和对应概率形成的分布——伯努利分布(0-1分布)。另外还有:n重伯努利试验对应的二项分布、二项分布的极限分布(n→∞和p→0)泊松分布、二项分布“不放回抽样”版超几何分布、二项分布“第一次成功”版几何分布、“几何分布的推广版”负二项分布。
- 连续型概率分布:随机变量为连续型的概率分布,即概率和事件的数量都是无限的。例如均匀分布、正态分布、指数分布、学生t分布、正态平方卡方分布、卡方比例F分布等。
下面逐一介绍下以上提及的分布:
- 伯努利分布:结果只有两种可能的单次试验对应的概率分布,例如抛一枚硬币试验。
分布图:
概率质量函数:
2. 二项分布:重复多次独立的同概率伯努利试验的试验对应概率分布, 例如抛多次硬币、多次试验之间互相不影响、用的同一枚硬币和相同的抛投方式,保证概率概率相同。而伯努利试验就确保了结果只有两种可能。总结为四个词就是(独立、重复、同概率、结果二元)
分布图:
概率质量函数:
3. 泊松分布:当需要估计某个时间段内发生次数的概率时,可以考虑。关注的不是二项分布的试验进行的次数n和发生的概率,而是两者的乘积 均值 λ = np。
概率质量函数:
泊松分布和二项分布:待续。
4. 超几何分布:和二项分布一样关注的是“成功次数”,不同的是超几何分布对应的抽样形式是不放回抽样,即每次抽样不独立、概率会随着抽样进行而改变。当总数N和抽样数n差距很大的时候,就不会对概率产生多大的影响,可以近似地看作是二项分布。
概率质量函数:
5. 几何分布:和二项分布一样是结果二元的试验,不同的是,几何分布关注点在于第一次成功,即几何分布是关于抽样时第一次成功事件的概率。
分布图:空
概率质量函数:
6.均匀分布:任意相同间隔内的分布概率是相等的,即概率分布为一条平行X轴的直线,高度取决于分布的总长度。
7. 负二项分布:是几何分布的简单推广,关注点在成功r次前的失败次数(或者是失败r次前的成功次数,看你如何定义成功),所以会比几何分布多个参数r。
分布图:
概率密度函数:
负二项的由来:
8. β二项分布:待续,还没弄明白。
9. 正态分布:又称常态分布,是应用得最广泛的一种对称分布,关注的是均值和标准差。例如身高、员工薪水分布、智商等等。
分布图:
率密度函数:
10. 指数分布:几何分布中当时间切片趋于无穷小的时候就得到了指数分布,和几何分布关注的是大颗粒的次、秒等单位不同,指数分布精确地描述了第一次成功前的时间分布(因为切片无穷小,成功的那一刻可以忽略不计)。类似泊松分布,指数分布由参数发生率λ决定。
分布图:图中的mu = μ = λ
指数分布
概率密度函数:
11. 对数正态分布:是指一个随机变量的对数服从正态分布,则该随机变量服从对数正态分布。对数正态分布从短期来看,与正态分布非常接近。但长期来看,对数正态分布向上分布的数值更多一些???
分布图:
概率密度函数:
12. 帕累托分布:是从大量真实世界的现象中发现的幂次定律分布,帕累托因对意大利20%的人口拥有80%的财产的观察而著名。(二八法则)
分布图:
概率密度函数:
概率分布:
13. 学生t分布:当样本量较小时,正态总体的抽样服从t分布。
分布图:
概率密度函数:其中,Gam(x)为伽马函数
14. 正态平方卡方分布:服从正态分布的变量的平方服从卡方分布。
分布图:
概率密度函数:其中x≥0, 当x≤0时fk(x) = 0。这里Γ代表Gamma 函数。
15. 卡方比例F分布:两个服从卡方分布的变量比例服从F分布。
分布图:
概率密度函数:
第2.1小节是按照随机变量类型进行划分,所以所有的分布都可以归纳进行,所以会稍微详细一点点介绍,下面进行其它方式分类的时候就只进行简述和对应分类下的共同特点或者关联。
2.2 关于伯努利试验
- 伯努利分布:单次伯努利试验对于的分布,结果只有两种可能。
- 二项分布:n重伯努利试验对应的分布,结果二元、独立重复进行、概率固定,关注的是“成功“次数的概率分布。
- 几何分布:和二项分布类似n重伯努利试验,关注的是第一次成功失败次数的概率分布。
- 负二项分布:是几何分布的推广,关注的是成功r次前失败次数的概率分布。
- 超几何分布:是不放回抽样版的n重伯努利试验,关注点和二项分布一样——“成功”次数的概率分布。
- β二项分布:它与一般二项式分布的不同之处,在于它虽然也是表示一系列已知次数的伯努利实验的成功概率,但其中的伯努利实验的常数变成了一个随机变量。——维基百科-β-二项式分布,我还没搞明白,待续。
2.3 关于泊松过程中的事件(给定速率独立发生的事件)
- 泊松分布:用于给定时间段内泊松型事件的发生次数(给定速率、独立发生、发生次数)
- 指数分布:在下一个泊松类型事件发生之前的时间对应分概率分布(给定速率、独立发生、时间间隔)
- Gamma分布:在下一个k泊松类型事件发生之前的时间(多个泊松过程事件(k)、时间间隔)
文章伽马分布,指数分布,泊松分布的关系,讲解得很简洁明了。
2.4 关于贝叶斯推理的共轭先验分布
2.5 关于假设检验的抽样分布
2.5.1中心极限定理和抽样分布
- 经典(狭义)中心极限定理是什么?
简单不负责版本: 大样本的情况下抽样的均值服从正态分布。
复杂专业地版本: 独立同分布(从同一个总体)抽样的均值服从正态分布。
PS: 均值可以是x均值、样本比例p均值。 - 这个定理有啥用?
第一,区间估计。既然我们知道了样本均值的分布,就可以通过反向操作推断样本均值出现在某个区间的概率。
转换成标准正态分布(未知总体标准差,用样本标准差估计)
构建置信区间(根据置信水平,需求的概率)
推导出总体参数区间估计
第二,假设检验,因为已知样本均值分布,可以计算出样本均值对应的统计检验量,可以计算样本均值出现的概率,从而推翻/保留原假设,如假设总体均值μ<5,实际计算出来的均值对应的Z值处于拒绝域内(依据概率需求(置信度)确定),表明小概率事件发生,可以拒绝之前的假设。
2.5.2 三大抽样分布和统计推断
- 正态小样本t分布:当正态变量,抽样样本量较小时(小于30),则抽样均值近似服从t分布,和Z分布同理查表即可。
- 正态平方和卡方分布:当样变量是由服从正态分布的变量通过求平方和得到时,服从卡方分布。例如方差是由样本值和样本均值的差的平方再除以n-1得到的,即统计推断要使用卡方统计量。
- 卡方比例F分布:当变量由服从卡方分布的变量相除得到,那么该变量服从F分布,例如两个总体的方差之比,检验它们方差是否相等时可用F统计量。
2.6 关于正太分布的特征抽象
- 线性增长的实值(“多劳多得”的事件)
因为是线性增长,即可以用线性回归模型拟合,实际的Y值在特定的X值上四符合正态分布的(因为误差必须符合正态分布)。例如,如果钻石的价格和重量、形状、颜色、净度和荧光有线性关系,那么钻石的价格,在特定的重量、形状、颜色、净度和荧光上一定是呈现正态分布的(即意味着误差符合正态分布、如果误差不符合正态分布,就意味着还有未被考虑的因素)。再例如司机有效的运营时间(非空跑)有线性关系(假设完全较好拟合),那么在特定的出租车运营公司里处于某个有效运营时间的出租车司机的收入一定是服从正态分布的,因为司机的实际收入=特定有效时间对应的收入+误差值,不然此时模型中的误差就不服从正态分布的。 - 多个独立随机事件相加的事件
根据”广义中心极限定理“如果一个事件的结果是由多个独立的变量“相加”的结果,而且这些独立的随机变量的方差是非零且有限的(非零且不会无穷大),那么这个事件会随着变量数量的增加会趋近正态分布。
简化的理解,一个事件是由多个(大于20个)独立随机变量相加的结果,且这些变量的方差是非零且有限的,那么这个事件就可以近似认为服从正态分布。
例如身高,生物学家认为人的身高是由至少180多个基因共同决定的,有的决定你的小腿有多长,有的决定你的脖子有多长——而你的身高,是所有这些因素相加之和。作为一个很好的近似,决定身高的各个基因是比较相互独立的。所以身高满足正态分布。
——《三种分布模型》 万维钢精英日课第三季
2.7 关于指数增长的正实数
- 指数增长的正实数
- 对数正态分布:对于单个这样的随机变量,服从此分布。例如个人财富的分布,当下的个人财富对未来的财富几乎都是”相乘“的关系,不管是存银行、投资理财都是再本金的基础上按照一定的比例变化。所以个人财富的分布是服从对数正态分布的
对数正态分布
- 帕累托分布:对于这样的量的数量,服从帕累托分布,属于幂律分布。例如个人财富量的分布,将 数量(Y)-财富量(X)绘制分布图,可以形成 一个类似下图所示的幂律分布图,绝大多数的人会处于财富的低到中部,极少数的人会占据绝大部分的财富。
第2节,是按照各种共同的特征/应用去分类整理介绍,从基础的按照随机变量类型到两类特殊的事件:伯努利试验和泊松过程中的事件;再到两类特殊的应用:1)贝叶斯推理 2)假设检验;最后是正态的分布的抽象特征是多个方差非零且有限的独立随机变量相加、以及指数增长的正实数相关单个量对应的对数正态分布,指数增长正实数的数量(例如财富的数量)服从的幂律分布。
3.分布属性的延申(时间关系,简单罗列,待续)
众数、中位数、均值;头部、尾部;方差、标准差;偏度、峰度。
- 众数、中位数、均值:其中中位数可以用来区分前后百分之50得数据,众数可以确认集中得位置。在正态分布中,三者相同。
- 尾部、峰度:重尾分布:
尖峰厚尾:金融数据为何如此?
长尾分布:如何从长尾中获益?
平峰优化:如何提高平峰时期的交通通行效率? - 头部:头部效应:强者越强是否和能从长尾效应矛盾?
- 偏度:硬性分布法(强制正态分布法)
第3节,是通过遍历分布对于的属性来整合汇总概率分布对于的应用。还未进行详细描述,待续。
4.概率分布的主要应用(时间关系,简单罗列,待续)
- 伪随机数生成:计算机生成的随机数为什么不靠谱?蒙特卡洛模拟是啥?
- 极大似然估计:数据量少如何尽量准确地估计总体参数?
- 贝叶斯推断:数据量少如何尽量准确地估计总体参数?
第4节,是补充分布基本属性为设计的应用。还未进行详细描述,待续。