机器学习必备概率基础知识



概率分布

期望

如果    |x|f(x)dx<  ,那么 E(x)=   xf(x)dx  ;如果积分发散,则期望不存在(无意义)。

函数的期望  如果 Y=g(X)  ,对于离散变量 E(Y)= x g(x)p(x)  ,对于连续变量 E(Y)=   g(x)f(x)dx  。注意函数的期望不一定等于期望的函数,即 E[g(x)]g[E(x)]  。如果X和Y是相互独立的随机变量,g和h是固定的函数,那么

E[g(X)h(Y)]=E[g(X)]E[h(Y)],ifg(X)h(Y) (1) 
作为公式 (1)  的特例, E(XY)=E(X)E(Y) 

方差是一种特殊的期望

Var(X)=E[XE(X)] 2 =E(X 2 )[E(X)] 2  (2) 

伯努利分布

伯努利随机变量的取值只有两个:0和1。 

p(1)=p (3) 

二项分布

x 1 ,x 2 ,...,x n   是相互独立的伯努得随机变量,那么

y=x 1 +x 2 +...+x n  (4) 
是一个二项随机变量。
p(y=k)=(nk)p k (1p) nk  (5) 
其中 p  就是公式 (3)  中的 p  ,所以公式 (3)  表示一次试验成功的概率,而公式 (5)  表示k次试验成功的概率。

多项分布

二项分布每次实验结果只有2种,如果有多种那就变成了多项分布。设一共有r种结果,每种结果出现的概率依次是 p 1 ,p 2 ,...p r   ,进行发n次实验,第i种结果出现的次数为 n i   ,这样的概率是

p(n 1 ,n 2 ,n r )=n!n 1 !n 2 !n r ! p n 1  1 p n 2  2 p n r  r  (6) 
n个对象分成r个类别,第i类有 n i   个对象,这种分类方式共有
n!n 1 !n 2 !n r !  (7) 
种,这个式子正是多项系数
(X 1 +X 2 ++X r ) n =(n!n 1 !n 2 !n r ! )X n 1  1 X n 2  2 X n r  r  (8) 

几何分布

连续若干次相互独立的伯努利试验,第g次才成功。则

p(g=k)=(1p) k1 p (9) 
期望是 1p  

负二项分布

负二项分布是几何分布的一般化。连续若干次相互独立的伯努利试验,直到成功了r次为止,共进行了k次试验。

p(n=k)=(k1r1)p r1 (1p) kr p (10) 
负二项分布也可以看成是r次独立的几何随机变量的和:第1次成功时经历的试验次数 g 1   加上第1次成功后第2次成功又经历的试验次数 g 2   加上……所以
n=g 1 +g 2 +...+g r  (11) 

超几何分布

共有n个球,其中黑球r个,白球n-r个。从中取出m个球,X表示抽到黑球的个数。

p(X=k)=(rk)(nrmk)(nm)  (12) 

在估计野生动物数量时经常采用 标记重捕法:捕获r只动物,将它们作上标记后释放。这之后再捕获m个动物,发现其中有k个带有标记,请估计动物的总数n。这里我们采用极大似然估计法,它将使观测结果出现可能性最大的n作为其估计值。根据超几何分布我们知道出现观测结果的概率为

L n =(rk)(nrmk)(nm)  

"显然易见”,该似然函数随着n的增长先单调上长再单调下降,为求得似然函数的极大值点很容易想到的是令一阶导数为0。然而一阶导数并不好求,我们转把似然函数转换成对数函数后再来求一阶导数,不幸的是这种方法仍然不便于计算。我们考虑似然函数的连续项比值

L n L n1  =(nm)(nr)n(n+kmr)  
该比值项为1时似然函数取得最大值,得
n=rmk  

自然常数e

下面的几种概率密度函数中都包含e,所以我们先来剖析一下e到底是什么。

自然常数e和圆周率 π  是常见的超越数。

来看几个跟e有关的公式。

e=lim x (1+1x ) x  (13) 

e= x=0  1x!  (14) 

(a x )  =a x lna (15) 

(log a x)  =log a ex  (16) 

利用公式 (13)  我们来具体说下e到底是什么。假设一个细胞经过1个单位时间分裂成两个细胞。即经过1个单位时间后细胞数目比原先多了1倍,经过1/2个单位时间后细胞数目比原先多了1/2倍,经过1/3个单位时间后细胞数目比原先多了1/3倍,经过1/n个单位时间后细胞数目比原先多了1/n倍。则我们用下面的公式计算单位时间后的细胞数目是当前的几倍:

(1+11 ) 1  

现在假设一个细胞还是需要1个单位时间才能分裂成两个细胞,只是经过1/2单位时间后,正在分裂中的细胞又开始新的分裂过程。1个单位时间可以分成前后两个阶段,每个阶段末的细胞数目都是阶段初的 1+12   倍。我们用下面的公式计算单位时间后的细胞数目是当前的几倍:

(1+12 ) 2  

如果经过1/n个单位时间后细胞就具有分裂能力,则我们用下面的公式计算单位时间后的细胞数目是当前的几倍:

(1+1n ) n  (17) 

当细胞具有分裂能力的时间间隔足够短,即 n  时,公式 (17)  就等于e。由此得出:e是单位时间内持续的翻番增长所能达到的极限值。

泊松分布

当满足以下前提条件时,泊松变量表示单位时间内发生的次数。

  1. 不同子区间内了生与否相互独立
  2. 每个子区间发生的概率相同
  3. 事件不会同时发生

P(X=k)=λ k k! e λ ,k=0,1,2...... (18) 
注意到
e λ = k=0  λ k k!  (19) 

泊松分布的期望和方差都是 λ 

泊松过程: S 1 ,S 2 ,...S N   是S的互不相交的子集,这些子集上发生的事件数 N 1 ,N 2 ,...N 3   是相互独立的随机变量,且服从参数为 λ|S 1 |,λ|S 2 |...λ|S N |  的泊松分布,即期望与区间大小成正比例。

如果X服从参数为 λ  的泊松分布,Y服从参数为 μ  的泊松分布,且X和Y相互独立,那么X+Y服从参数为 λ+μ  的泊松分布。

Poisson(λ)  分布可以看成是二项分布 B(n,p)  np=λ,n  条件下的极限分布。

指数分布

指数分布常用来描述生命周期或等待时间,变量一般用t表示。

密度函数 f(t)={λe λt ,0, ift0ift<0  

λ  越大,密度函数下降得越快。

密度积累函数 F(t)=P(T<t)=1e λt   ,即

P(T>t)=e λt  (20) 
一般地,泊松过程两次事件发生的时间间隔是独立同分布的指数随机变量。这里我们可以简单推导一下,令泊松过程两次事件发生的时间间隔是T, P(T>t)=P((t 0 ,t 0 +t))  ,因为在长度为 (t 0 ,t 0 +t)  的时长内事件发生的个数服从参数为 λt  的泊松分布,由公式 (18)  发生次数为0的概率是 e λt   ,即 P(T>t)=e λt   ,这和公式 (20)  是吻合的。

指数分布的期望是 1λ  

正态分布

密度函数

f(x)=12π − −   σ e (xμ) 2 2σ 2    (21) 
独立正态随机变量的和还是正态随机变量。

这里给出一种生成正态随机变量的方法。首先独立生成[0,1]上的均匀随机变量 U 1   U 2   ,则 X=2logU 1  − − − − − − −   cos(2πU 2 )Y=2logU 1  − − − − − − −   sin(2πU 2 )  是相互独立的标准正态随机变量,这种方法叫做极化方法(polar method)。

中心极限定理

X 1 ,X 2 ,  是均值为0方差为 σ 2   的独立随机变量序列,具有相同的分布函数F,矩生成函数M在零点附近有定义,令

S n = i=1 n X i  (22) 
那么
lim n P(S n σn    x)=Φ(x),<x< (23) 
其中 Φ(x)  是正态分布的累积密度函数。暂且不论矩生成函数是什么。

粗略来看中心极限定理是说,如果一个随机变量是许多独立同分布的随机变量之和,那么它就近似服从正态分布。所以说正态分布是分布之王。

因为二项随机变量是独立的伯努力随机变量之和,由中心极限定理得,二项分布可用正态分布来近似。当 p=12   时近似得最好。常用的经验方法是np>5且n(1-p)>5时,近似比较合理。

柯西分布

如果X和Y是独立的标正态随机变量,则 Z=YX   服从柯西分布。

f(z)=1π(z 2 +1) ,<z< (24) 

柯西密度与标准正态密度相似,也关于0点对称,似乎表明E(Z)=0,然而    |z|π(1+z 2 ) dz=  ,期望不存在,究其原因在于柯西密度衰减得太慢,以至于z取较大值时的概率不能忽略不计。柯西密度尾部以速度 x 2   衰减,正态密度尾部以速度 e x 2    衰减,正态密度衰减得快一些。

伽马分布

先介绍下伽马函数: Γ(x)=(x1)!=  0 μ x1 e μ dμ,x>0 

伽马函数把阶乘运算从整数拓展到了实数。

不仅如此,利用伽马函数还可以求一般函数的分数阶导数。我们看一下 x n   的各阶导数:

1阶导数-- nx n1  

2阶导数-- n(n1)x n2  

k阶导数-- n(n1)(nk+1)x nk =n!(nk)! x nk =Γ(n+1)Γ(nk+1) x nk  

x n   的分数阶导数就可以用伽马函数来计算。对于一般函数f(x)可以通过Taylor展开式把它表示成幂级数的形式,借助于 x n   的分数阶导数就可以求出任意函数的分数阶导数。

伽马密度函数

g(t)=λ α Γ(α) t α1 e λt ,t0 (25) 
参数 α  为形状参数, λ  为尺度参数。变动 α  改变改变密度函数的形状,改变 λ  改变测量单位。

任何非负随机变量的密度函数都可以用伽马密度函数来模拟,就看 α  λ  怎么拟合了。

α=1  时伽马密度为指数密度,伽马密度的期望是 αλ   ,所以指数分布的期望是 1λ  

参数为 λ  的n个独立指数随机变量的和服从参数为n和 λ  的伽马分布,又因为泊松过程中两个连续随机变量发生的时间间隔服从指数分布,因此在泊松过程中,n个连续事件发生的时间间隔服从伽马分布。

贝塔分布

f(u)=Γ(α+β)Γ(α)Γ(β) μ α1 (1μ) β1 ,0μ1 (26) 

Beta分布的概率密度图像也是个百变星君,调整 α  β  它可以变成凸的、凹的、单调上升的、单调下降的,可以是曲线,也可以是直线。均匀分布也是一种特殊的Beta分布。

设x的密度函数为f(x),累积密度函数为F(x), X (1) <X (2) <X<X (n)   为顺序统计量,则由概率的乘法定理很容易得出 X (k)   的密度是:

f k (x)=n!(k1)!(nk)! f(x)F(x) k1 (x)[1F(x)] nk  (27) 
特别地,当x是[0,1]上的均匀分布时,f(x)=1,F(x)=x,则
f k (x)=n!(k1)!(nk)! x k1 (x)[1x] nk  (28) 
这就是一个贝塔密度。 R=X (n) X (1)   称为极差。

卡方分布

  X 1 ,X 2 ,,X n   是独立的标准正态随机变量,则 X 2 1 +X 2 2 ++X 2 n   是自由度为n的卡方分布,记为 χ 2 n  

如果U、V独立,且 Uχ 2 n ,Vχ 2 m   ,那么 U+Yχ 2 m+n  

自由度为n的卡方分布是 α=n2   λ=12   的伽马分布,由公式 (25)  可推出卡方密度

f(x)=12 n/2 Γ(n/2) x n/21 e x/2 ,x0 (29) 

t分布

如果 ZN(0,1),Uχ 2 n   ,且Z和U独立,则 ZU/n      是自由度为n的t分布。

f(t)=Γ(n+12 )nπ − −   Γ(n2 ) (1+t 2 n ) n+12   (30) 
t分布关于0点对称。当自由度趋于无穷大时,t分布趋于标准正态分布。事实上,自由度超过20或30时,两个分布就非常接近。

F分布

如果U和V是自由度分别为m和n的独立卡方随机变量,

W=U/mV/n  (31) 
为自由度为m和n的F分布,记作 F m,n  

由t分布的定义易证: t 2 n F 1,n  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值