数据挖掘之统计学基础(3):【理论】概率分布
0x00前言
概率分布(probabilitydistribution)或简称分布(distribution),是概率论的一个概念。
具有相同分布函数的随机变量一定是同分布的,因此可以用分布函数来描述一个分布,但更常用的描述手段是概率密度函数(probability density function,pdf)。
0x01基本概念
1.随机变量
随机变量(random variable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。
随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,都是随机变量的实例。
2.古典概率
1)概率的定义
表示一个事件发生的可能性的大小的数。
2)古典概率的定义
如果试验中可能出现的基本事件数有n个,而事件A包含的基本事件数为m个,A的概率。
3)特征
- 有限性
所有基本事件是有限个。 - 等可能性
各基本事件发生的可能性是相等的。
3.条件概率
条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。
若只有两个事件A,B,则条件概率公式
4.离散变量
离散型(discrete)随机变量即在一定区间内变量取值为有限个或可数个。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。离散型随机变量通常依据概率质量函数分类,主要分为:伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量。
5.连续变量
连续型(continuous)随机变量即在一定区间内变量取值有无限个,或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。有几个重要的连续随机变量常常出现在概率论中,如:均匀随机变量、指数随机变量、伽马随机变量和正态随机变量。
6.期望值
在概率论和统计学中,期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)是指在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和。
换句话说,期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。
0x01离散变量概率分布
离散变量的分布函数的值域是离散的,比如只取整数值的随机变量就是属于离散分布的。
F(x)表示随机变量X≤x的概率值。如果X的取值只有x1 < x2 < … < xn,则:
1.伯努利分布
1)定义
伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。我们假设该项试验独立重复地进行了n次,那么就称这一系列重复独立的随机试验为n重伯努利试验,或称为伯努利概型。
进行一次伯努利试验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。伯努利分布亦称“零一分布”、“两点分布”。
二项分布就是重复n次独立的伯努利试验,即伯努利分布是二项分布在n=1时的特例。
2)例子
- 抛一次硬币是正面向上吗?
- 刚出生的小孩是个女孩吗?
2.二项分布
1)定义
二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。
二项分布指出,随机一次试验出现的概率如果为p,那么在n次试验中出现k次的概率为:
2)二项分布应用
- 将硬币抛n次,就是n重伯努利试验;
- 抛一颗骰子,若A表示得到“1点”,非A表示得到“非1点”。
3)例子
在掷3次骰子中,不出现6点的概率是:f(3,0,1/6)=(1/6)^0 * (5/6)^3=0.579。
3.泊松分布
1)定义
泊松近似是二项分布的一种极限形式。其强调如下的试验前提:一次抽样的概率值p相对很小,而抽取次数n值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为p,那么在n次试验中出现k次的概率按照泊松分布应该为:
其中数学常数e = 2.71828…(自然对数的底数)
在实践中如果遇到n值很大导致二项分布难于计算时,可以考虑使用泊松分布,但前提是n*p必须趋于一个有限极限。采用泊松分布的一个不太严格的规则是:
- n >= 100
- p <= 0.1
2)应用
- 一本书一页中的印刷错误数;
- 某地区在一天内邮递遗失的信件数;
- 某一医院在一天内的急诊病人数;
- 某一地区一个时间间隔内发生交通事故的次数。
3)例子
某工厂在生产零件时,每200个成品中会有1个次品,那么在100个零件中最多出现2个次品的概率按照泊松分布应该是:
f(100,0,1/200) + f(100,1,1/200) + f(100,2,1/200) = 0.986
0x03连续变量概率分布
1.正态分布
1)定义
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。
2)公式
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
3)曲线
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
正态分布曲线
2.均匀分布
1)定义
在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
2)公式
概率密度函数:
3)曲线
3.指数分布
1)定义
在概率理论和统计学中,指数分布(也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。 这是伽马分布的一个特殊情况。 它是几何分布的连续模拟,它具有无记忆的关键性质。 除了用于分析泊松过程外,还可以在其他各种环境中找到。
2)公式
其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数。指数分布的区间是[0,∞)。 如果一个随机变量X呈指数分布,则可以写作:X~ E(λ)。
3)曲线
4.卡方分布
1)定义
若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
2)公式
3)曲线
5.贝塔分布
1)定义
贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。
2)公式
在概率论中,贝塔分布,也称B分布,是指一组定义在 区间的连续概率分布,有两个参数 。
3)曲线
6.F分布
1)定义
F分布是1924年英国统计学家R.A.Fisher提出,并以其姓氏的第一个字母命名的。它是一种非对称分布,有两个自由度,且位置不可互换。F分布有着广泛的应用,如在方差分析、回归方程的显著性检验中都有着重要的地位。
若总体,与为来自X的两个独立样本,设统计量
则称统计量F服从自由度n1和n2的F分布,记为F~F(n1,n2)。
2)公式
3)曲线
参考文献:
[1] https://wiki.mbalib.com/wiki/Probability_distribution
[2] 百度百科. https://baike.baidu.com