深度学习中的一些概率函数分布

1. 随机变量及其分布函数

1.1 随机变量和概率分布函数的定义

随机变量是分布函数中重要的概念,它表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关系,均可以进行数量化.对于给定的随机试验, Ω \Omega Ω是其样本空间,对于 Ω \Omega Ω空间中每一个样本点 ω \omega ω,有且只有一个实数 X ( ω ) X(\omega) X(ω)与之对应,则称此定义在空间 Ω \Omega Ω的实值函数 X X X为随机变量.
X X X是一个随机变量,称定义域为 ( − ∞ , + ∞ ) (-\infty,+\infty) (,+),函数的值域在 [ 0 , 1 ] [0,1] [0,1]上的实值函数
F ( x ) = P ( X ≤ x )   ( − ∞ < x < + ∞ ) F(x)=P(X\leq x)\text{ }(-\infty<x<+\infty) F(x)=P(Xx) (<x<+)
为随机变量 X X X的分布函数.所以说,若已知 X X X的分布函数,那么就可以知道 X X X落在任意一个区间上的概率:
P { x 1 ≤ X ≤ x 2 } = P { X ≤ x 2 } − P { X ≤ x 1 } = F ( x 2 ) − F ( x 1 ) P\{x_{1}\leq X \leq x_{2}\}=P\{X \leq x_{2}\}-P\{X \leq x_{1}\}=F(x_{2})-F(x_{1}) P{x1Xx2}=P{Xx2}P{Xx1}=F(x2)F(x1)
所以说,概率分布函数完整地描述了随机变量的统计规律性.

1.2 性质

具体来说,概率分布函数具有以下的基本性质:
(1) 0 ≤ F ( x ) ≤ 1   ( − ∞ < x < + ∞ ) 0\leq F(x) \leq 1 \text{ }(-\infty <x<+\infty) 0F(x)1 (<x<+)
(2) 对于任意两点 x 1 x_{1} x1 x 2 x_{2} x2,当 x 1 < x 2 x_{1}<x_{2} x1<x2的时候,有 F ( x 1 ) < F ( x 2 ) F(x_{1})<F(x_{2}) F(x1)<F(x2),即任意概率分布函数都是单调不减的函数;
(3) lim ⁡ x → − ∞ F ( x ) = 0 \lim\limits_{x \to -\infty}F(x) =0 xlimF(x)=0以及 lim ⁡ x → + ∞ F ( x ) = 1 \lim\limits_{x \to +\infty}F(x) =1 x+limF(x)=1
(4) lim ⁡ x → x 0 + F ( x 0 ) = F ( x 0 )   ( − ∞ < x < + ∞ ) \lim\limits_{x \to x_{0}^{+}}F(x_{0})=F(x_{0})\text{ }(-\infty <x<+\infty) xx0+limF(x0)=F(x0) (<x<+)即任意概率分布函数是一个右连续函数.

2. 离散型随机变量

有一些随机变量,它的可能取值是有限个或者是多个数值,这样的随机变量称为离散型随机变量,它的分布即称为离散型随机分布.

2.1 离散型随机变量分布律

一般地,通常以以下的分布律来表达离散型随机分布。
X X X是一个离散型随机变量,它可能的取值为 x 1 , x 2 , . . . , x n x_{1},x_{2},...,x_{n} x1,x2,...,xn,事件 { X = x i } \{X=x_{i}\} {X=xi}的概率为 p i   ( i = 1 , 2 , 3 , . . . , n ) p_{i}\text{ }(i = 1,2,3,...,n) pi (i=1,2,3,...,n),那么可以用下面的表格来表达 X X X取值的规律:

X X X x 1 x_{1} x1 x 2 x_{2} x2 x n x_{n} xn
概率 p 1 p_{1} p1 p 2 p_{2} p2 p n p_{n} pn

其中, 0 ≤ p i ≤ 1   ( i = 1 , 2 , . . . , n ) 0\leq p_{i} \leq 1\text{ } (i=1,2,...,n) 0pi1 (i=1,2,...,n), ∑ i p i = 1 \sum\limits_{i}p_{i}=1 ipi=1.这个表格就称为离散型随机变量 X X X的分布律。

2.2 常见的分布函数

下面将会介绍几种常见的随机变量的分布函数.

2.2.1 伯努利(Bernouli)分布

这个也称作是0-1分布,这是一个单一二元变量 x ∈ { 0 , 1 } x \in \{0,1\} x{0,1}的分布。它是由一个连续参数 μ ∈ { 0 , 1 } \mu \in \{0,1\} μ{0,1}控制,这个参数表示 x = 1 x=1 x=1的概率。具体有以下的表达式:
Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x \text{Bern}(x|\mu)=\mu^{x}(1-\mu)^{1-x} Bern(xμ)=μx(1μ)1x

E [ x ] = μ \mathbb{E}[x]=\mu E[x]=μ

var [ x ] = μ ( 1 − μ ) \text{var}[x]=\mu(1-\mu) var[x]=μ(1μ)

mode [ x ] = { 1 ,  if  μ > 0.5 0 , otherwise \text{mode}[x]=\begin{cases} 1 & , \text{ if } \mu > 0.5 \\ 0 & , \text{otherwise} \end{cases} mode[x]={10, if μ>0.5,otherwise

H [ x ] = − μ ln μ − ( 1 − μ ) ln ( 1 − μ ) H[x]=-\mu\text{ln}\mu-(1-\mu)\text{ln}(1-\mu) H[x]=μlnμ(1μ)ln(1μ)

2.2.2 二项分布

二项分布给出了在伯努利分布中的 N N N个样本中观察到 m m m x = 1 x=1 x=1的概率.伯努利分布中,设观测到 x = 1 x=1 x=1的概率是 μ ∈ [ 0 , 1 ] \mu \in [0,1] μ[0,1],则表达式为:
Bin ( m ∣ N , μ ) = ( N m ) μ m ( 1 − μ ) N − m \text{Bin}(m|N,\mu)=\binom{N}{m}\mu^{m}(1-\mu)^{N-m} Bin(mN,μ)=(mN)μm(1μ)Nm

E [ x ] = N μ \mathbb{E}[x]=N\mu E[x]=Nμ

var [ x ] = N μ ( 1 − μ ) \text{var}[x]=N\mu(1-\mu) var[x]=Nμ(1μ)

mode [ m ] = ⌊   ( N + 1 ) μ ⌋ \text{mode}[m]=\biggl\lfloor\ (N+1)\mu\biggr\rfloor mode[m]= (N+1)μ

其中, ⌊   ( N + 1 ) μ ⌋ \biggl\lfloor\ (N+1)\mu\biggr\rfloor  (N+1)μ表示超过 ( N + 1 ) μ (N+1)\mu (N+1)μ的最大整数.另外
( N m ) = N ! m ! ( N − m ) ! \binom{N}{m}=\frac{N!}{m!(N-m)!} (mN)=m!(Nm)!N!

二项式分布中 N = 1 N=1 N=1这一个特殊情形被称作是伯努利分布。一般地,对于大数值 N N N,二项分布近似于高斯分布。 μ \mu μ的共轭先验是 Beta \text{Beta} Beta分布。若随机变量 X X X具有二项分布,一般记为 X ∼ B ( n , μ ) X\sim B(n,\mu) XB(n,μ).

2.2.3 多项式分布

如果将伯努利分布推广到 K K K维二元变量 x \pmb x xxx,其中分量 x k ∈ 0 , 1 x_{k} \in {0,1} xk0,1并且 ∑ k x k = 1 \sum\limits_{k}x_{k}=1 kxk=1,则会有下面的离散分布
p ( x ) = ∏ k = 1 K μ k x k p(\pmb x)=\prod_{k=1}^{K}\mu_{k}^{x_{k}} p(xxx)=k=1Kμkxk

E ( x k ) = μ k \mathbb{E}(x_{k})=\mu_{k} E(xk)=μk

var [ x k ] = μ k ( 1 − μ k ) \text{var}[x_{k}]=\mu_{k}(1-\mu_{k}) var[xk]=μk(1μk)

cov [ x j x k ] = − μ j μ k , j ≠ k \text{cov}[x_{j}x_{k}]=-\mu_{j}\mu_{k},j\neq k cov[xjxk]=μjμk,j=k

H [ x ] = − ∑ k = 1 K μ k ln μ k H[\pmb x]=-\sum\limits^{K}_{k=1}\mu_{k}\text{ln}\mu_{k} H[xxx]=k=1Kμklnμk

由于 p ( μ k = 1 ) = μ k p(\mu_{k}=1)=\mu_{k} p(μk=1)=μk,因而参数必须满足下列条件: 0 ≤ μ k ≤ 1 0\leq \mu_{k} \leq 1 0μk1以及 ∑ k μ k = 1 \sum\limits_{k}\mu_{k}=1 kμk=1.
多项式分布,二项分布对于多元变量的推广中,下面表达式给出了一个具有 K K K个状态的离散变量在总计 N N N次观测中处于状态 k k k的次数 m k m_{k} mk的分布律:
Mult ( m 1 , m 2 , . . . , m K ) = ( N m 1 m 2 . . . m K ) ∏ k = 1 K μ k m k \text{Mult}(m_{1},m_{2},...,m_{K})=\binom{N}{m_{1}m_{2}...m_{K}}\prod\limits_{k=1}^{K}\mu_{k}^{m_{k}} Mult(m1,m2,...,mK)=(m1m2...mKN)k=1Kμkmk

E [ m k ] = N μ k \mathbb{E}[m_{k}]=N\mu_{k} E[mk]=Nμk

var [ m k ] = N μ k ( 1 − μ k ) \text{var}[m_{k}]=N\mu_{k}(1-\mu_{k}) var[mk]=Nμk(1μk)

cov [ m j m k ] = − N μ j μ k , j ≠ k \text{cov}[m_{j}m_{k}]=-N\mu_{j}\mu_{k},j\neq k cov[mjmk]=Nμjμk,j=k

其中 x = ( μ 1 , . . . , μ K ) T \pmb x=(\mu_{1},...,\mu_{K})^{T} xxx=(μ1,...,μK)T,并且
( N m 1 m 2 . . . m K ) = N ! m 1 ! . . . m K ! \binom{N}{m_{1}m_{2}...m_{K}}=\frac{N!}{m_{1}!...m_{K}!} (m1m2...mKN)=m1!...mK!N!

这个值给出了这样的一个结果,即把 N N N个相同的物体中的 m k m_{k} mk个放到箱子 k k k中方案总数,其中 k = 1 , . . . , K k=1,...,K k=1,...,K. μ k \mu_{k} μk给出了随机变量处于k状态的概率,因此必须满足条件 0 ≤ μ k ≤ 1 0\leq \mu_{k} \leq 1 0μk1并且 ∑ k μ k = 1 \sum\limits_{k}\mu_{k}=1 kμk=1.参数 μ k \mu_{k} μk的共轭先验是狄利克雷分布.

2.2.4 泊松分布

设随机变量 X X X的分布律为
Poisson ( x = k ∣ λ ) = λ k k ! e − λ \text{Poisson}(x=k|\lambda)=\frac{\lambda^{k}}{k!}e^{-\lambda} Poisson(x=kλ)=k!λkeλ

称随机变量 X X X服从参数为 λ \lambda λ的泊松分布,其中 λ > 0 \lambda>0 λ>0,并且记泊松分布为 X ∼ P ( λ ) X\sim P(\lambda) XP(λ).
其中,
E [ x ] = λ \mathbb{E}[x]=\lambda E[x]=λ

var [ x ] = λ \text{var}[x]=\lambda var[x]=λ
泊松分布的参数 λ \lambda λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数.

泊松分布是并不是一个缺少记忆分布函数。一般地,假设随机变量 X X X服从参数 λ \lambda λ的泊松分布,则
P { X = i + 1 } P { X = i } = e − λ λ i + 1 / ( i + 1 ) ! e − λ λ i / i ! = λ i + 1 \frac{P\{X=i+1\}}{P\{X=i\}}=\frac{e^{-\lambda}\lambda^{i+1}/(i+1)!}{e^{-\lambda}\lambda^{i}/i!}=\frac{\lambda}{i+1} P{X=i}P{X=i+1}=eλλi/i!eλλi+1/(i+1)!=i+1λ
即会有下的递推公式
P { X = i + 1 } = λ i + 1 P { X = i } P\{X=i+1\}=\frac{\lambda}{i+1}P\{X=i\} P{X=i+1}=i+1λP{X=i}

其中, P { X = 0 } = e − λ P\{X=0\}=e^{-\lambda} P{X=0}=eλ

2.2.5 几何分布

设在独立重复试验中,事件 A A A出现的概率为 p p p,随机变量 X X X是事件 A A A首次出现时的试验次数.那么会有以下分布律
Geo ( X = n ) = q n − 1 p \text{Geo}(X=n)=q^{n-1}p Geo(X=n)=qn1p

其中 q = 1 − p q=1-p q=1p.称此分布为具有参数 p p p的集合分布,记做 X ∼ G E ( p ) X\sim GE(p) XGE(p).它的期望和方差为:
E [ x ] = 1 p \mathbb{E}[x]=\frac{1}{p} E[x]=p1
var [ x ] = 1 − p p 2 \text{var}[x]=\frac{1-p}{p^{2}} var[x]=p21p
几何分布有下面几个推广,
推广一:
在伯努利试验中,设每次试验过程中事件 A A A发生的概率为 p p p,试验进行到事件 A A A A ˉ \bar A Aˉ都出现为止,设随机变量 X X X为进行的试验次数,那么必有以下结果:
P ( x = k ) = q k − 1 p + p k − 1 q P(x=k)=q^{k-1}p+p^{k-1}q P(x=k)=qk1p+pk1q
其中, q = 1 − p , k = 2 , 3 , . . . q=1-p,k=2,3,... q=1p,k=2,3,....因此上面的表达式可以是一个分布列,并且是两个几何数列一般项的和,称 X X X服从两个事件下推广的几何分布,记做 X ∼ P G E ( 2 , p ) X\sim PGE(2,p) XPGE(2,p).有以下期望、方差表达式:
E [ x ] = 1 p q − 1 \mathbb{E}[x]=\frac{1}{pq}-1 E[x]=pq11
var [ x ] = E ( X 2 ) − ( E ( X ) ) 2 = q 2 + q 3 + p 2 + p 3 − p 2 q 2 p 2 q 2 − 1 p 2 = 1 − 3 p + p 2 + 4 p 3 − 2 p 4 p 2 q 2 \text{var}[x]= \mathbb{E}(X^{2})-(\mathbb{E}(X))^{2}\\ =\frac{q^{2}+q^{3}+p^{2}+p^{3}-p^{2}q^{2}}{p^{2}q^{2}}-\frac{1}{p^2}\\ =\frac{1-3p+p^{2}+4p^{3}-2p^{4}}{p^2q^{2}} var[x]=E(X2)(E(X))2=p2q2q2+q3+p2+p3p2q2p21=p2q213p+p2+4p32p4
推广二:
现在进行独立重复试验,每次试验会有三个事件 A A A B B B C C C中其中的一个发生,记这三个事件 A A A B B B C C C发生的概率为 p 1 p_{1} p1 p 2 p_{2} p2 p 3 p_{3} p3,并且 p 1 , p 2 , p 3 > 0 ; p 1 + p 2 + p 3 = 1 p_{1},p_{2},p_{3}>0;p_{1}+p_{2}+p_{3}=1 p1,p2,p3>0;p1+p2+p3=1.试验进行到事件 A A A B B B C C C都发生为止,设随机变量 X X X为此时进行的试验次数,那么会有
P ( X = k ) = ∑ j = 1 k − 2 ( k − 1 j ) p 2 j p 3 k − 1 − j p 1 + ∑ j = 1 k − 2 ( k − 1 j ) p 1 j p 3 k − 1 − j p 2 + ∑ j = 1 k − 2 ( k − 1 j ) p 1 j p 2 k − 1 − j p 3 = ( p 2 + p 3 ) k − 1 p 1 + ( p 1 + p 3 ) k − 1 p 2 + ( p 1 + p 2 ) k − 1 p 3 − ( p 2 + p 3 ) p 1 k − 1 − ( p 1 + p 3 ) p 2 k − 1 − ( p 1 + p 2 ) p 3 k − 1 P(X=k)=\sum\limits^{k-2}_{j=1}\binom{k-1}{j}p_{2}^{j}p_{3}^{k-1-j}p_{1}+\sum\limits^{k-2}_{j=1}\binom{k-1}{j}p_{1}^{j}p_{3}^{k-1-j}p_{2}+\sum\limits^{k-2}_{j=1}\binom{k-1}{j}p_{1}^{j}p_{2}^{k-1-j}p_{3}\\ =(p_{2}+p_{3})^{k-1}p_{1}+(p_{1}+p_{3})^{k-1}p_{2}+(p_{1}+p_{2})^{k-1}p_{3} -(p_{2}+p_{3})p_{1}^{k-1}-(p_{1}+p_{3})p_{2}^{k-1}-(p_{1}+p_{2})p_{3}^{k-1} P(X=k)=j=1k2(jk1)p2jp3k1jp1+j=1k2(jk1)p1jp3k1jp2+j=1k2(jk1)p1jp2k1jp3=(p2+p3)k1p1+(p1+p3)k1p2+(p1+p2)k1p3(p2+p3)p1k1(p1+p3)p2k1(p1+p2)p3k1

其中 k = 3 , 4 , . . . k=3,4,... k=3,4,....上面的式子也可以作为一个分布列,此分布列是六个几何数列一般项的和与差,称 X X X服从三事件下推广的几何分布,记做 X ∼ P G E ( 3 ; p 1 , p 2 ) X\sim PGE(3;p_{1},p_{2}) XPGE(3;p1,p2).数学期望为:
E ( X ) = ∑ k = 3 + ∞ = 1 + 1 p 1 + 1 p 2 + 1 p 3 − 1 1 − p 1 − 1 1 − p 2 − 1 1 − p 3 \mathbb{E}(X)=\sum\limits_{k=3}^{+\infty}=1+\frac{1}{p_{1}}+\frac{1}{p_{2}}+\frac{1}{p_{3}}-\frac{1}{1-p_{1}}-\frac{1}{1-p_{2}}-\frac{1}{1-p_{3}} E(X)=k=3+=1+p11+p21+p311p111p211p31

2.2.6 帕斯卡分布

帕斯卡分布,是几何分布中的一个推广结论。假设在重复、独立的伯努利试验中,设每次试验成功的概率为 p p p,失败的概率为 q = 1 − p q=1-p q=1p,将试验进行到出现 r r r次( r r r是一个常数)成功为止,另外设随机变量 X X X表示总共成功 r r r这个试验所需要的的次数,则称 X X X就服从关于参数 r r r p p p的帕斯卡分布,记做 X ∼ N B ( r , p ) X\sim NB(r,p) XNB(r,p).其分布律表达式为:
Pascal ( X = k ∣ p , r ) = ( k − 1 r − 1 ) p r − 1 q k − r ⋅ p = ( k − 1 r − 1 ) p r q k − r \text{Pascal}(X=k|p,r)=\binom{k-1}{r-1}p^{r-1}q^{k-r}\cdot p=\binom{k-1}{r-1}p^{r}q^{k-r} Pascal(X=kp,r)=(r1k1)pr1qkrp=(r1k1)prqkr

期望和方差为
E [ X ] = r p \mathbb{E}[X]=\frac{r}{p} E[X]=pr

var [ X ] = r q p 2 \text{var}[X]=\frac{rq}{p^{2}} var[X]=p2rq

r r r为整数的时候,负二项分布又称为帕斯卡分布,负二项分布即
f ( k ∣ r , p ) = ( k + r − 1 r − 1 ) p r ( 1 − p ) k f(k|r,p)=\binom{k+r-1}{r-1}p^{r}(1-p)^{k} f(kr,p)=(r1k+r1)pr(1p)k

表示在一连串伯努利试验中,某事件刚好在第 r + k r+k r+k次试验中出现 r r r次的概率。特别地,当 r = 1 r=1 r=1时候,负二项分布等于几何分布,即
f ( k ∣ 1 , p ) = p ⋅ ( 1 − p ) k f(k|1,p)=p\cdot(1-p)^{k} f(k1,p)=p(1p)k

2.2.7 超几何分布

超几何分布是一种常见的离散分布律。有限个 N N N个物件中,假设包含有 M M M个指定种类的物件,现在做一个试验,从这 N N N个物件中不放回地抽取 n n n个物件,随机变量 X X X表示成功抽取该指定物件的次数,那么其分布律可以由如下表示
P ( X = k ) = ( M k ) ( N − M n − k ) ( N n ) P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}} P(X=k)=(nN)(kM)(nkNM)

称随机变量 X X X服从以 n n n N N N M M M的超几何分布。记做 X ∼ H ( n , N , M ) X\sim H(n,N,M) XH(n,N,M).期望以及方差的大小为
E [ X ] = n M N \mathbb{E}[X]=\frac{nM}{N} E[X]=NnM

var [ X ] = n M N − ( n M N ) 2 + n ( n − 1 ) M ( M − 1 ) N ( N − 1 ) \text{var}[X]=\frac{nM}{N}-(\frac{nM}{N})^{2}+\frac{n(n-1)M(M-1)}{N(N-1)} var[X]=NnM(NnM)2+N(N1)n(n1)M(M1)

超几何分布和二项分布具有一定的联系,主要有下面几个方面的联系
(1) 在超几何分布中,当 N → + ∞ N\rightarrow +\infty N+时, M N → p \frac{M}{N}\rightarrow p NMp;
(2) 当 N → + ∞ N\rightarrow +\infty N+时,超几何分布的期望值 E [ X ] = n M N → n p \mathbb{E}[X]=\frac{nM}{N}\rightarrow np E[X]=NnMnp,方差 var [ X ] → n p ( 1 − p ) \text{var}[X]\rightarrow np(1-p) var[X]np(1p)
(3) 当 N → + ∞ N\rightarrow +\infty N+时,超几何分布近似为二项分布.

3.连续型随机变量

当随机变量取值充满一个区间(或者是若干个区间的并集),那么即定义这类随机变量为连续型随机变量。

3.1 概率密度函数及性质

一般地,如果随机变量 X X X的分布函数 F ( x ) F(x) F(x)对每一 x x x可以表示为
F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^{x}f(t)dt F(x)=xf(t)dt
其中 f ( x ) > 0 f(x)>0 f(x)>0,则称 X X X为连续型随机变量, f ( x ) f(x) f(x) X X X的概率密度函数,并称 X X X的分布为连续型分布.
概率密度函数具有以下的一些性质:
(1) f ( x ) > 0 f(x)>0 f(x)>0
(2) ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty}f(x)dx=1 +f(x)dx=1
(3) P ( a < X ≤ b ) = ∫ − ∞ b f ( x ) d x − ∫ − ∞ a f ( x ) d x = ∫ a b f ( x ) d x P(a<X\leq b)=\int_{-\infty}^{b}f(x)dx-\int_{-\infty}^{a}f(x)dx=\int_{a}^{b}f(x)dx P(a<Xb)=bf(x)dxaf(x)dx=abf(x)dx
很明显,以 x x x轴区间 [ a , b ] [a,b] [a,b]为底、曲线 y = f ( x ) y=f(x) y=f(x)为顶的曲边梯形的面积就是 P ( a < X ≤ b ) P(a<X\leq b) P(a<Xb)的值.
很容易得出分布函数具有以下的性质:
设连续型随机变量 X X X F ( x ) F(x) F(x) f ( x ) f(x) f(x)分别是随机变脸的分布函数和密度分布函数,那么
(1) F ( x ) F(x) F(x)是一个连续函数,而且在 f ( x ) f(x) f(x)的连续点处有 F ′ ( x ) = f ( x ) F^{'}(x)=f(x) F(x)=f(x)
(2) 对于任意一个常数 c ∈ [ − ∞ , + ∞ ] c\in[-\infty,+\infty] c[,+],有 P ( X = c ) = 0 P(X=c)=0 P(X=c)=0
(3) 对于任意两个常数 a a a b b b − ∞ < a < b < + ∞ -\infty<a<b<+\infty <a<b<+,
P ( a < X < b ) = P ( a < X ≤ b ) = P ( a ≤ X < b ) = P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a<X<b)=P(a<X\leq b)=P(a\leq X<b)=P(a\leq X \leq b)=\int_{a}^{b}f(x)dx P(a<X<b)=P(a<Xb)=P(aX<b)=P(aXb)=abf(x)dx

下面就介绍在深度学习中常见到的概率分布函数及其密度函数.

3.2 常见的概率分布函数

3.2.1 均匀(Uniform)分布

均匀分布是连续型随机分布中最简单的一个。设随机变量 X X X的密度函数为
Uniform ( x ∣ a , b ) = { 1 b − a ,  if  a < x < b 0 ,  if otherwise \text{Uniform}(x|a,b)=\begin{cases} \frac{1}{b-a}&,\text{ if } a<x<b \\ 0&,\text{ if } \text{otherwise} \end{cases} Uniform(xa,b)={ba10, if a<x<b, if otherwise

X X X服从区间 ( a , b ) (a,b) (a,b)上的均匀分布,记为 X ∼ U ( a , b ) X\sim U(a,b) XU(a,b)
分布函数为
F ( x ) = { 0 ,  if  x < a x − a b − a , a ≤ x ≤ b 0 ,  if  x > b F(x)=\begin{cases} 0 &,\text{ if } x<a \\ \frac{x-a}{b-a}&,a\leq x \leq b\\ 0 &,\text{ if } x>b \end{cases} F(x)=0baxa0, if x<a,axb, if x>b
其中的一些性质如下:
E [ x ] = a + b 2 \mathbb{E}[x]=\frac{a+b}{2} E[x]=2a+b
var [ x ] = ( b − a ) 2 12 \text{var}[x]=\frac{(b-a)^{2}}{12} var[x]=12(ba)2
H [ x ] = ln ( b − a ) H[x]=\text{ln}(b-a) H[x]=ln(ba)

3.2.2 指数分布

指数分布是描述泊松过程中的事件之间的时间概率分布,即事件一恒定的速率连续且单独地发生的过程,这是Gamma分布和威布尔分布中的一个特殊情况。泊松分布中最大的一个性质就是无记忆性,即如果一个随机变量呈指数分布的话,当 s , t > 0 s,t>0 s,t>0时候均有 P { T > t + s ∣ T > t } = P { T > s } P\{T>t+s|T>t\}=P\{T>s\} P{T>t+sT>t}=P{T>s}.随机变量 X X X关于指数分布的概率密度函数为:
Exponent ( x ∣ λ ) = { λ e − λ x ,  if  x > 0 0 , otherwise \text{Exponent}(x|\lambda)=\begin{cases} \lambda e^{-\lambda x}&,\text{ if } x>0\\ 0&,\text{otherwise} \end{cases} Exponent(xλ)={λeλx0, if x>0,otherwise
分布函数为:
F ( x ) = { 1 − e − λ x ,  if  x ≥ 0 0 , otherwise F(x)=\begin{cases} 1- e^{-\lambda x}&,\text{ if } x\geq 0\\ 0&,\text{otherwise} \end{cases} F(x)={1eλx0, if x0,otherwise

其中 λ > 0 \lambda>0 λ>0.若随机变量 X X X服从指数分布,则记做 X ∼ E ( λ ) X\sim E(\lambda) XE(λ).下面是它的一些性质:
E [ x ] = 1 λ \mathbb{E}[x]=\frac{1}{\lambda} E[x]=λ1

var [ x ] = 1 λ 2 \text{var}[x]=\frac{1}{\lambda^{2}} var[x]=λ21

H [ x ] = 1 λ H[x]=\frac{1}{\lambda} H[x]=λ1

3.2.3 韦布尔(Weibull)分布

韦布尔分布是可靠性分析和寿命检验的理论基础。广泛应用于可靠性工程方面,用于描述机电类产品的磨损累计失效的分布形式,由于利用概率值很容易推断出它的分布参数,所以被广泛使用到各种寿命试验的数据处理。
Weibull ( x ∣ λ , k ) = { k λ ( x λ ) k − 1 e − ( x λ ) k ,  if  x ≥ 0 0 ,  if  x < 0 \text{Weibull}(x|\lambda ,k)=\begin{cases} \frac{k}{\lambda}(\frac{x}{\lambda})^{k-1}e^{-(\frac{x}{\lambda})^{k}}&,\text{ if } x \geq 0\\ 0&,\text{ if } x<0 \end{cases} Weibull(xλ,k)={λk(λx)k1e(λx)k0, if x0, if x<0

其中, λ > 0 \lambda>0 λ>0是比例参数, k > 0 k>0 k>0是形状参数。显然,它的累积分布函数是扩展的指数分布函数。特别地,取 k = 1 k=1 k=1则退化为指数分布函数; k = 2 k=2 k=2是瑞利(Rayleigh)分布函数。
性质:
E [ x ] = λ Γ ( 1 + 1 k ) \mathbb{E}[x]=\lambda\Gamma(1+\frac{1}{k}) E[x]=λΓ(1+k1)

var [ x ] = λ 2 [ Γ ( 1 + 2 k ) − Γ ( 1 + 1 k ) 2 ] \text{var}[x]=\lambda^{2}[\Gamma(1+\frac{2}{k})-\Gamma(1+\frac{1}{k})^{2}] var[x]=λ2[Γ(1+k2)Γ(1+k1)2]

mode [ x ] = λ ( ln 2 ) 1 k \text{mode}[x]=\lambda(\text{ln}2)^{\frac{1}{k}} mode[x]=λ(ln2)k1

H [ x ] = γ ( 1 − 1 k ) + ln ( λ k ) + 1 H[x]=\gamma(1-\frac{1}{k})+\text{ln}(\frac{\lambda}{k})+1 H[x]=γ(1k1)+ln(kλ)+1

其中, γ \gamma γ是欧拉常数 γ = ∫ 1 ∞ ( 1 ⌊ x ⌋ − 1 x ) \gamma=\int_{1}^{\infty}(\frac{1}{\lfloor x\rfloor}-\frac{1}{x}) γ=1(x1x1)

Skew [ x ] = 2 Γ ( 1 + 1 k ) 3 − 3 Γ ( 1 + 2 k ) Γ ( 1 + 1 k ) + Γ ( 1 + 3 k ) [ Γ ( 1 + 2 k ) − Γ ( 1 + 1 k ) 2 ] 3 2 \text{Skew}[x]=\frac{2\Gamma(1+\frac{1}{k})^{3}-3\Gamma(1+\frac{2}{k})\Gamma(1+\frac{1}{k})+\Gamma(1+\frac{3}{k})}{[\Gamma(1+\frac{2}{k})-\Gamma(1+\frac{1}{k})^{2}]^{\frac{3}{2}}} Skew[x]=[Γ(1+k2)Γ(1+k1)2]232Γ(1+k1)33Γ(1+k2)Γ(1+k1)+Γ(1+k3)

kurtosis [ x ] = − 3 Γ ( 1 + 1 k ) 4 + 6 Γ ( 1 + 2 k ) Γ ( 1 + 1 k ) 2 − 4 Γ ( 1 + 3 k ) Γ ( 1 + 1 k ) + Γ ( 1 + 4 k ) [ Γ ( 1 + 2 k ) − Γ ( 1 + 1 k ) 2 ] 2 \text{kurtosis}[x]=\frac{-3\Gamma(1+\frac{1}{k})^{4}+6\Gamma(1+\frac{2}{k})\Gamma(1+\frac{1}{k})^{2}-4\Gamma(1+\frac{3}{k})\Gamma(1+\frac{1}{k})+\Gamma(1+\frac{4}{k})}{[\Gamma(1+\frac{2}{k})-\Gamma(1+\frac{1}{k})^{2}]^2} kurtosis[x]=[Γ(1+k2)Γ(1+k1)2]23Γ(1+k1)4+6Γ(1+k2)Γ(1+k1)24Γ(1+k3)Γ(1+k1)+Γ(1+k4)
累积分布函数为
F ( x ∣ λ , k ) = { 1 − e − ( x / λ ) k ,  if  x > 0 0 ,  if  x < 0 F(x|\lambda,k)=\begin{cases} 1-e^{-(x/\lambda)^{k}}&,\text{ if }x>0\\ 0&,\text{ if }x<0 \end{cases} F(xλ,k)={1e(x/λ)k0, if x>0, if x<0

一般地,Weibull分布表征电气器件失效概率的分布状况,这个与参数 k k k具有很大的关联性。

  • k < 1 k<1 k<1表示故障率随着时间降低。
  • k = 1 k=1 k=1表示故障率在一段时间内是恒定的,此时简化为指数分布函数
  • k > 1 k>1 k>1表示故障率会随着时间的增加而增加。该函数首先是凹的,拐点为 ( e 1 k − 1 ) e 1 k , k > 1 \frac{(e^{\frac{1}{k}}-1)}{e^{\frac{1}{k}}},k>1 ek1(ek11),k>1

概率密度函数以及累积分布函数图像如下所示
WeiBull分布函数

3.2.4 瑞利(Rayleigh)分布

当一个随机二维向量的两个分量呈独立的、有着相同方差的正太分布的时候,这个向量的模呈瑞利分布。瑞利分布常常用于描述平坦衰落信号接收包络或独立多径分量接受包络统计时变特性的一种分布类型。两个正交高斯噪声信号之和的包络服从瑞利分布。瑞利分布是Weibull分布中参数 k = 2 k=2 k=2的特殊情形。
Rayleigh ( x ∣ σ ) = { x σ 2 e − x 2 2 σ 2 ,  if  x ≥ 0 0 ,  if  x < 0 \text{Rayleigh}(x|\sigma)=\begin{cases} \frac{x}{\sigma^2}e^{-\frac{x^{2}}{2\sigma^{2}}}&,\text{ if } x \geq 0 \\ 0&,\text{ if } x<0 \end{cases} Rayleigh(xσ)={σ2xe2σ2x20, if x0, if x<0

累积分布函数为
F ( x ∣ σ ) = 1 − e x 2 2 σ 2 F(x|\sigma)=1-e^{\frac{x^{2}}{2\sigma^{2}}} F(xσ)=1e2σ2x2
性质:
E [ x ] = π 2 σ \mathbb{E}[x]=\sqrt{\frac{\pi}{2}}\sigma E[x]=2π σ

var [ x ] = 4 − π 2 σ 2 \text{var}[x]=\frac{4-\pi}{2}\sigma^2 var[x]=24πσ2

mode [ x ] = σ \text{mode}[x]=\sigma mode[x]=σ

H [ x ] = 1 + ln ( σ 2 ) + γ 2 H[x]=1+\text{ln}(\frac{\sigma}{\sqrt{2}})+\frac{\gamma}{2} H[x]=1+ln(2 σ)+2γ

其中 γ \gamma γ是欧拉常数。

累积分布函数以及密度分布函数如下所示
Rayleigh分布函数

3.2.5 正态(Gaussian)分布

正态分布,又称作是高斯(Gaussian)分布,是连续变量中使用最为广泛的概率分布。在一元随机变量 x ∈ ( − ∞ , + ∞ ) x\in (-\infty,+\infty) x(,+)的情况下,由两个参数控制:均值 μ ∈ ( − ∞ , + ∞ ) \mu\in(-\infty,+\infty) μ(,+)和方差 σ 2 > 0 \sigma^2>0 σ2>0.变量 X X X服从正态分布记做 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)
N ( x ∣ μ , σ 2 ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 N(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} N(xμ,σ2)=2π σ1e2σ2(xμ)2
X ∼ N ( μ , σ ) X\sim N(\mu,\sigma) XN(μ,σ)

E ( x ) = μ \mathbb{E}(x)=\mu E(x)=μ

var [ x ] = σ 2 \text{var}[x]=\sigma^2 var[x]=σ2

mode [ x ] = μ \text{mode}[x]=\mu mode[x]=μ

H [ x ] = 1 2 ln σ 2 + 1 2 ( 1 + ln ( 2 π ) ) H[x]=\frac{1}{2}\text{ln}\sigma^2+\frac{1}{2}(1+\text{ln}(2\pi)) H[x]=21lnσ2+21(1+ln(2π))

方差的倒数 τ = 1 σ 2 \tau=\frac{1}{\sigma^2} τ=σ21称为精度,方差的平方根 σ \sigma σ称为标准差。 μ \mu μ的共轭先验是高斯分布, τ \tau τ的共轭先验是Gamma分布。如果 μ \mu μ τ \tau τ都是未知的,那么它们的联合共轭先验是高斯-Gamma分布。
特别地,随机变量 X X X服从 X ∼ N ( 0 , 1 ) X\sim N(0,1) XN(0,1),那么称之为服从标准的正态分布,即
N ( x ∣ 0 , 1 ) = 1 2 π e − x 2 2 σ 2 N(x|0,1)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^{2}}{2\sigma^2}} N(x0,1)=2π 1e2σ2x2
对于二维情况下,设 D D D维向量 x \pmb x xxx,那么它的高斯分布是一个 D D D维均值向量 μ \mu μ和一个 D × D D\times D D×D的协方差矩阵 Σ \Sigma Σ。协方差矩阵一定是对称的、正定的。
N ( x ∣ μ , Σ ) = 1 ( 2 π ) D ∣ Σ ∣ e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) N(\pmb x|\pmb{\mu,\Sigma})=\frac{1}{\sqrt{(2\pi)^{D}|\pmb \Sigma|}}e^{-\frac{1}{2}(\pmb{x}-\pmb\mu)^{T}\pmb\Sigma^{-1}(\pmb{x}-\pmb\mu)} N(xxxμ,Σμ,Σμ,Σ)=(2π)DΣΣΣ 1e21(xxxμμμ)TΣΣΣ1(xxxμμμ)

E [ x ] = μ \mathbb{E}[\pmb x]=\pmb \mu E[xxx]=μμμ

cov [ x ] = Σ \text{cov}[\pmb x]=\pmb\Sigma cov[xxx]=ΣΣΣ

mode [ x ] = μ \text{mode}[\pmb x]=\pmb\mu mode[xxx]=μμμ

H [ x ] = 1 2 ln ∣ Σ ∣ + D 2 ( 1 + ln ( 2 π ) ) H[\pmb x]=\frac{1}{2}\text{ln}|\pmb\Sigma|+\frac{D}{2}(1+\text{ln}(2\pi)) H[xxx]=21lnΣΣΣ+2D(1+ln(2π))

协方差矩阵的逆矩阵 Λ = Σ − 1 \pmb\Lambda=\pmb\Sigma^{-1} ΛΛΛ=ΣΣΣ1叫做精度矩阵,它也是对称的、正定的。根据中心极限定理,随机变量的平均值趋近于高斯分布,并且两个高斯变量之和仍然是高斯变量。给定方差(或者协方差),高斯分布是最大化熵值的分布。高斯随机变量的任意线性组合仍然是高斯分布。多元高斯的变量关于变量的一个子集的边缘分布仍然是高斯分布,类似地,条件分布也是高斯分布。 μ \pmb\mu μμμ的共轭先验仍然是高斯分布, Λ \pmb\Lambda ΛΛΛ的共轭先验是一个Wishart分布, ( μ , Λ ) (\pmb\mu,\pmb\Lambda) (μμμ,ΛΛΛ)的共轭先验是高斯-Wishart分布。
Gamma概率密度函数图像如下:
Gamma概率密度函数分布图

3.2.6 对数(ln)正态分布

对数正态分布是指一个随机变量的对数服从正太分布,在生活实践过程中会有很多数值并不是符合对称性正态分布的,例如人们完成某一项特定任务所需要的时间会得到一个分布,这些值必然都是正数,分布的形状基本满足这样的情形,即有一个无人能及的最小时间,然后是少数一些非常快的“冠军”,接下来就是普通人最具有代表性的高峰,最后是尾部一长串“掉队者”,由于正态分布并不能够很好地描述这样的分布状况,所以提出一种对数正太分布函数。
对数正态分布与正态分布很类似,它的概率分布向右边有所移动,短期来说与正态分布接近,长期来看,对数正态分布向上分布的数值更多一些。换句话来说就是,对数分布函数向上分布波动的可能性大一些,更小向下波动的可能。
假设 X X X为取值为正值的连续随机变量,如果 ln X ∼ N ( μ , σ 2 ) \text{ln}X\sim N(\mu,\sigma^{2}) lnXN(μ,σ2),则 X X X的概率密度函数为:
logNormal ( x ∣ μ , σ ) = { 1 2 π σ x e − ( ln x − μ ) 2 2 σ 2 , x > 0 0 , x ≤ 0 \text{logNormal}(x|\mu,\sigma)=\begin{cases} \frac{1}{\sqrt{2\pi}\sigma x}e^{-\frac{(\text{ln}x-\mu)^{2}}{2\sigma^{2}}}&,x>0\\ 0&,x\leq 0 \end{cases} logNormal(xμ,σ)={2π σx1e2σ2(lnxμ)20,x>0,x0

则称随机变量 X X X服从对数正态分布,并记做 ln X ∼ N ( μ , σ 2 ) \text{ln}X\sim N(\mu,\sigma^{2}) lnXN(μ,σ2)
均值和方差为:
E [ x ] = e μ + σ 2 2 \mathbb{E}[x]=e^{\mu+\frac{\sigma^{2}}2{}} E[x]=eμ+2σ2

var [ x ] = ( e σ 2 − 1 ) e 2 μ + σ 2 \text{var}[x]=(e^{\sigma^{2}}-1)e^{2\mu+\sigma^{2}} var[x]=(eσ21)e2μ+σ2

对数正态分布具有以下的性质:
(1) 正太分布经过指数变换之后即为对数正态分布;对数正态分布经过对数变换后为正态分布;
(2) 设 γ , t > 0 \gamma,t>0 γ,t>0 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^{2}) XN(μ,σ2),对于变换 Y = γ X t Y=\gamma X^{t} Y=γXt,则 ln Y ∼ N ( t μ + ln γ , t σ ) \text{ln}Y\sim N(t\mu+\text{ln}\gamma,t\sigma) lnYN(tμ+lnγ,tσ)
(3) 对数正态分布总是向右偏(对数分布函数向上分布波动的可能性大一些,更小向下波动的可能);

3.2.7 Beta分布

这个是连续变量 μ ∈ [ 0 , 1 ] \mu\in[0,1] μ[0,1]的分布,经常用于表示某些二元事件的概率。它含有两个参数 a a a b b b。为了保证分布能够归一化,我们要求 a > 0 , b > 0 a>0,b>0 a>0,b>0
Beta ( μ ∣ a , b ) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a − 1 ( 1 − μ ) b − 1 \text{Beta}(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} Beta(μa,b)=Γ(a)Γ(b)Γ(a+b)μa1(1μ)b1

E [ μ ] = a a + b \mathbb{E}[\mu]=\frac{a}{a+b} E[μ]=a+ba

var [ μ ] = a b ( a + b ) 2 ( a + b + 1 ) \text{var}[\mu]=\frac{ab}{(a+b)^2(a+b+1)} var[μ]=(a+b)2(a+b+1)ab

mode [ μ ] = a − 1 a + b − 2 \text{mode}[\mu]=\frac{a-1}{a+b-2} mode[μ]=a+b2a1

Beta分布是伯努利分布的共轭先验,其中 a a a b b b可以分别表示为 x = 1 x=1 x=1 x = 0 x=0 x=0的观测的有效先验数量。如果 a ≥ 1 a\geq1 a1并且 b ≥ 1 b\geq1 b1,那么它的概率密度是有限值,否则在 μ = 0 \mu=0 μ=0和(或) μ = 1 \mu=1 μ=1处会有奇异值。对于 a = b = 1 a=b=1 a=b=1的情形,他就会简化成了均匀分布。Beta分布是 K K K状态狄利克雷分布在 K = 2 K=2 K=2时候的特殊情形。

Beta分布函数

3.2.8 Gamma分布

Gamma分布是正随机变量 τ > 0 \tau>0 τ>0的概率分布,参数为 a a a b b b,满足限制 a > 0 a>0 a>0 b > 0 b>0 b>0,保证概率分布是归一化的。
Gam ( τ ∣ a , b ) = 1 Γ ( a ) b a τ a − 1 e − b τ \text{Gam}(\tau|a,b)=\frac{1}{\Gamma(a)}b^a\tau^{a-1}e^{-b\tau} Gam(τa,b)=Γ(a)1baτa1ebτ

E [ τ ] = a b \mathbb{E}[\tau]=\frac{a}{b} E[τ]=ba

var [ x ] = a b 2 \text{var}[x]=\frac{a}{b^2} var[x]=b2a

mode [ τ ] = a − 1 b ,  when  a ≥ 1 \text{mode}[\tau]=\frac{a-1}{b} ,\text{ when } a\geq 1 mode[τ]=ba1, when a1

E [ ln τ ] = ψ ( a ) − ln b \mathbb{E}[\text{ln}\tau]=\psi(a)-\text{ln}b E[lnτ]=ψ(a)lnb

H [ τ ] = ln Γ ( a ) − ( a − 1 ) ψ ( a ) − ln b + a H[\tau]=\text{ln}\Gamma(a)-(a-1)\psi(a)-\text{ln}b+a H[τ]=lnΓ(a)(a1)ψ(a)lnb+a

其中, ψ ( x ) \psi(x) ψ(x)是下面定义的digamma函数:
ψ ( a ) = d d a ln Γ ( a ) \psi(a)=\frac{d}{da}\text{ln}\Gamma(a) ψ(a)=dadlnΓ(a)

Gamma分布式单变量高斯分布的精度(方差的倒数)的共轭先验。当 a ≥ 1 a\geq1 a1时,概率密度处处为有限值, a = 1 a=1 a=1这一个特殊的情况被称作是指数分布。
概率密度函数图像如下所示:
Gamma分布函数

3.2.9 柯西分布

柯西分布是一个数学期望不存在的连续型概率分布,也称作是柯西-洛伦兹分布。其概率密度函数为
Cauchy ( x ∣ x 0 , γ ) = 1 π [ γ ( x − x 0 ) 2 + γ 2 ] \text{Cauchy}(x|x_{0},\gamma)=\frac{1}{\pi}[\frac{\gamma}{(x-x_{0})^{2}+\gamma^2}] Cauchy(xx0,γ)=π1[(xx0)2+γ2γ]
其中, x 0 x_{0} x0为定义分布峰值位置的位置参数; γ \gamma γ为最大值一半处的一半宽度的尺度参数。记随机变量 X X X服从柯西分布为 X ∼ C ( γ , x 0 ) X\sim C(\gamma,x_{0}) XC(γ,x0)。特别地,对于参数 γ = 1 , x 0 = 0 \gamma=1,x_{0}=0 γ=1,x0=0的分布称之为标准的柯西分布,其概率密度函数为
C ( x ∣ 1 , 0 ) = 1 π ( 1 + x 2 ) C(x|1,0)=\frac{1}{\pi(1+x^{2})} C(x1,0)=π(1+x2)1

对应的累积分布函数为
F ( x ∣ x 0 , γ ) = 1 π arctan ⁡ ( x − x 0 γ ) + 1 2 F(x|x_{0},\gamma)=\frac{1}{\pi}\arctan(\frac{x-x_{0}}{\gamma})+\frac{1}{2} F(xx0,γ)=π1arctan(γxx0)+21

特点:
(1) 数学期望、方差、高阶矩均不存在;
(2) 函数的熵为
H [ x ] = log ⁡ ( 4 π γ ) H[x]=\log(4\pi\gamma) H[x]=log(4πγ)

(3) 柯西分布具有可加性:设 x i ( i = 1 , 2 , 3 , . . . , n ) x_{i}(i=1,2,3,...,n) xi(i=1,2,3,...,n)独立同分布,并且 x i ∼ C ( γ , x 0 ) x_{i}\sim C(\gamma,x_{0}) xiC(γ,x0) y = ∑ i = 1 n x i y=\sum\limits_{i=1}^{n}x_{i} y=i=1nxi,则 y ∼ C ( n γ , n x 0 ) y\sim C(n\gamma,nx_{0}) yC(nγ,nx0)
(4) 倒数性质:设 x i ∼ C ( γ , x 0 ) x_{i}\sim C(\gamma,x_{0}) xiC(γ,x0) y = 1 x y=\frac{1}{x} y=x1,则 y ∼ C ( γ γ 2 + x 0 2 , x 0 γ 2 + x 0 2 ) y\sim C(\frac{\gamma}{\gamma^2+x_{0}^2},\frac{x_{0}}{\gamma^2+x_{0}^2}) yC(γ2+x02γ,γ2+x02x0)
广义柯西分布
设随机变量 X X X,如果其概率密度函数为
f m ( x ∣ σ ) = a m 1 + ( x 2 2 σ 2 ) m f_{m}(x|\sigma)=\frac{a_{m}}{1+(\frac{x^{2}}{2\sigma^2})^{m}} fm(xσ)=1+(2σ2x2)mam

则称随机变量 X X X服从参数为 m m m的广义柯西分布,参数 a m > 0.5 a_{m}>0.5 am>0.5是归一化常数。
对比柯西分布可知, x 0 = 0 , γ = 2 σ , a m = 1 2 σ π x_{0}=0,\gamma=\sqrt{2}\sigma,a_{m}=\frac{1}{\sqrt{2}\sigma\pi} x0=0,γ=2 σ,am=2 σπ1

Cauchy分布函数

3.2.10 狄利克雷(Dirichlet)分布

狄利克雷分布(Dirichlet)或者称为元Beta分布(Multivariate Beta)是一类在实数域以正单纯形为支撑集的高维连续概率分布,是Beta分布在高维情形下的推广。将狄利克雷分布的解析形式进行推广可以得到广义狄利克雷分布和组合狄利克雷分布。在贝叶斯推断中,狄利克雷分布作为多项式的共轭先验得到应用,在机器学习中被构建狄利克雷混合模型。狄利克雷分布在函数空间内对应的随机过程是狄利克雷过程。
狄利克雷分布是 K K K个随机变量 0 ≤ μ k ≤ 1 0\leq\mu_{k}\leq1 0μk1的多变量分布,其中 k = 1 , . . . , K k=1,...,K k=1,...,K,并且满足以下条件的限制
0 ≤ μ k ≤ 1 , ∑ k = 1 K = 1 0\leq\mu_{k}\leq1,\sum\limits_{k=1}^{K}=1 0μk1,k=1K=1

μ = ( μ 1 , . . . , μ K ) , α = ( α 1 , . . . , α K ) \pmb\mu=(\mu_{1},...,\mu_{K}),\pmb\alpha=(\alpha_{1},...,\alpha_{K}) μμμ=(μ1,...,μK),ααα=(α1,...,αK),设
α ^ = ∑ k = 1 K α k \widehat\alpha=\sum\limits_{k=1}^{K}\alpha_{k} α =k=1Kαk

C ( α ) = Γ ( α ^ ) Γ ( α 1 ) . . . Γ ( α K ) C(\pmb\alpha)=\frac{\Gamma(\widehat\alpha)}{\Gamma(\alpha_{1})...\Gamma(\alpha_{K})} C(ααα)=Γ(α1)...Γ(αK)Γ(α )

digamma函数:

ψ ( a ) = d d a ln Γ ( a ) \psi(a)=\frac{d}{da}\text{ln}\Gamma(a) ψ(a)=dadlnΓ(a)

我们均有
Dir ( μ ∣ α ) = C ( α ) ∏ k = 1 K μ k α k − 1 \text{Dir}(\pmb\mu|\pmb\alpha)=C(\pmb\alpha)\prod\limits_{k=1}^{K}\mu_{k}^{\alpha_{k}-1} Dir(μμμααα)=C(ααα)k=1Kμkαk1

性质
E [ μ k ] = α k α ^ \mathbb{E}[\mu_{k}]=\frac{\alpha_{k}}{\widehat\alpha} E[μk]=α αk

var [ μ k ] = α k ( α ^ − α k ) α ^ 2 ( α ^ + 1 ) \text{var}[\mu_{k}]=\frac{\alpha_{k}(\widehat\alpha-\alpha_{k})}{\widehat\alpha_{2}(\widehat\alpha+1)} var[μk]=α 2(α +1)αk(α αk)

cov [ μ j μ k ] = − α j α k α ^ 2 ( α ^ + 1 ) \text{cov}[\mu_{j}\mu_{k}]=-\frac{\alpha_{j}\alpha_{k}}{\widehat\alpha_{2}(\widehat\alpha+1)} cov[μjμk]=α 2(α +1)αjαk

mode [ μ k ] = α k − 1 α ^ − K \text{mode}[\mu_{k}]=\frac{\alpha_{k}-1}{\widehat\alpha-K} mode[μk]=α Kαk1

E [ ln μ k ] = ψ ( α k ) − ψ ( α ^ ) \mathbb{E}[\text{ln}\mu_{k}]=\psi(\alpha_{k})-\psi(\widehat\alpha) E[lnμk]=ψ(αk)ψ(α )

H [ μ ] = − ∑ k = 1 K ( α k − 1 ) ( ψ ( α k ) − ψ ( α ^ ) ) H[\pmb\mu]=-\sum\limits_{k=1}^{K}(\alpha_{k}-1)(\psi(\alpha_{k})-\psi(\widehat\alpha)) H[μμμ]=k=1K(αk1)(ψ(αk)ψ(α ))

为了保证参数的归一化,这里的参数必须满足限制条件 α k > 0 \alpha_{k}>0 αk>0.狄利克雷分布是多项式分布的共轭先验,是Beta分布的推广。这种情况下,参数 α k \alpha_{k} αk K K K维二元观测向量 x \pmb x xxx对应值的有效观测数量。与Beta分布相同,如果对于所有的 k k k都有 α k ≥ 1 \alpha_{k}\geq1 αk1,那么狄利克雷分布在空间中所有的位置的密度均为有限值。

3.2.11 Gaussian-Gamma分布

这是一元高斯分布 N ( x ∣ , μ , λ − 1 ) N(x|,\mu,\lambda^{-1}) N(x,μ,λ1)的共轭先验,其中均值 μ \mu μ和精度 λ \lambda λ均未知。也称作是正态-Gamma分布。它是精度正比于 λ \lambda λ μ \mu μ的高斯分布与 λ \lambda λ的Gamma分布乘积:
p ( μ , λ ∣ μ 0 , β , a , b ) = N ( x ∣ , μ , ( β λ ) − 1 ) Gam ( λ ∣ a , b ) p(\mu,\lambda|\mu_{0},\beta,a,b)=N(x|,\mu,(\beta\lambda)^{-1})\text{Gam}(\lambda|a,b) p(μ,λμ0,β,a,b)=N(x,μ,(βλ)1)Gam(λa,b)

3.2.12 Gaussian-Wishart分布

这是多元高斯分布 N ( x ∣ μ , Λ ) N(\pmb x|\pmb\mu,\pmb\Lambda) N(xxxμμμ,ΛΛΛ)的共轭先验,其中均值 μ \pmb\mu μμμ和精度 Λ \pmb\Lambda ΛΛΛ均未知。这个分布也被称作为正态-Wishart分布。它是精度正比于 Λ \pmb\Lambda ΛΛΛ μ \pmb\mu μμμ的高斯分布与 Λ \pmb\Lambda ΛΛΛ的Wishart分布乘积
p ( μ , Λ ∣ μ 0 , β , W , ν ) = N ( μ ∣ μ 0 , ( β Λ ) − 1 ) Wishcart ( Λ ∣ W , ν ) p(\pmb\mu,\pmb\Lambda|\pmb\mu_{0},\beta,\pmb W,\nu)=N(\pmb \mu|\pmb\mu_{0},(\beta\pmb\Lambda)^{-1})\text{Wishcart}(\pmb\Lambda|\pmb W,\nu) p(μμμ,ΛΛΛμμμ0,β,WWW,ν)=N(μμμμμμ0,(βΛΛΛ)1)Wishcart(ΛΛΛWWW,ν)

对于标量 x x x的情况,它等价于高斯-Gamma分布。

3.2.13 Von Mises分布

Von Mises 分布,也称作是环形正态分布或者是环形高斯分布,是一元变量 θ ∈ [ 0 , 2 π ) \theta\in[0,2\pi) θ[0,2π)的类似高斯的周期分布。
p ( θ ∣ θ 0 , m ) = 1 2 π I 0 ( m ) e m cos ⁡ ( θ − θ 0 ) p(\theta|\theta_{0},m)=\frac{1}{2\pi I_{0}(m)}e^{m\cos(\theta-\theta_{0})} p(θθ0,m)=2πI0(m)1emcos(θθ0)

其中 I 0 ( m ) I_{0}(m) I0(m)是零阶第一类Bessel函数:
I 0 ( x ) = ∑ m = 0 ∞ ( − 1 ) m m ! Γ ( m + α + 1 ) ( x 2 ) 2 m I_{0}(x)=\sum\limits_{m=0}^{\infty}\frac{(-1)^{m}}{m!\Gamma(m+\alpha+1)}(\frac{x}{2})^{2m} I0(x)=m=0m!Γ(m+α+1)(1)m(2x)2m

由于分布周期为 2 π 2\pi 2π,所以对于所有的 θ \theta θ都有 p ( θ + 2 π ) = p ( θ ) p(\theta+2\pi)=p(\theta) p(θ+2π)=p(θ)。参数 θ 0 类 似 于 高 斯 分 布 中 的 均 值 , \theta_{0}类似于高斯分布中的均值, θ0参数 m > 0 m>0 m>0,被称作concentration参数,类似于高斯分布的精度值。对于充分大的 m m m值,此分布函数近似于以 θ 0 \theta_{0} θ0为中心的高斯分布函数。

3.2.14 Wishart分布

Wishart分布是多元高斯分布的精度矩阵的共轭先验。
Wishart ( Λ ∣ W , ν ) = B ( W , ν ) ∣ Λ ∣ ν − D − 1 2 e − 1 2 Tr ( W − 1 Λ ) \text{Wishart}(\pmb\Lambda|\pmb W,\nu)=B(\pmb W,\nu)|\pmb\Lambda|^{\frac{\nu-D-1}{2}}e^{-\frac{1}{2}\text{Tr}(\pmb W^{-1}\pmb\Lambda)} Wishart(ΛΛΛWWW,ν)=B(WWW,ν)ΛΛΛ2νD1e21Tr(WWW1ΛΛΛ)

其中
B ( W , ν ) = ∣ W ∣ − ν 2 ( 2 ν D 2 π D ( D − 1 ) 4 ∏ i = 1 D Γ ( ν + 1 − i 2 ) ) − 1 B(\pmb W,\nu)=|\pmb W|^{-\frac{\nu}{2}}(2^{\frac{\nu D}{2}}\pi^{\frac{D(D-1)}{4}}\prod\limits_{i=1}^{D}\Gamma(\frac{\nu+1-i}{2}))^{-1} B(WWW,ν)=WWW2ν(22νDπ4D(D1)i=1DΓ(2ν+1i))1

E [ Λ ] = ν W \mathbb{E}[\pmb\Lambda]=\nu\pmb W E[ΛΛΛ]=νWWW

E [ ln ∣ Λ ∣ ] = ∑ i = 1 D ψ ( ν + 1 − i 2 ) + D ln 2 + ln ∣ W ∣ \mathbb{E}[\text{ln}|\pmb\Lambda|]=\sum\limits_{i=1}^{D}\psi(\frac{\nu+1-i}{2})+D\text{ln}2+\text{ln}|\pmb W| E[lnΛΛΛ]=i=1Dψ(2ν+1i)+Dln2+lnWWW

H [ Λ ] = − ln B ( W , ν ) − ν − D − 1 2 E [ ln ∣ Λ ∣ ] + ν D 2 H[\pmb\Lambda]=-\text{ln}B(\pmb W,\nu)-\frac{\nu-D-1}{2}\mathbb{E}[\text{ln}|\pmb\Lambda|]+\frac{\nu D}{2} H[ΛΛΛ]=lnB(WWW,ν)2νD1E[lnΛΛΛ]+2νD

其中, W \pmb W WWW是一个 D × D D\times D D×D对称正定矩阵, ψ ( a ) \psi(a) ψ(a)是digamma函数。参数 ν \nu ν被称作为分布的自由度的数量,满足限制 ν > D − 1 \nu>D-1 ν>D1,以保证归一化因子中的Gamma函数有着良好的定义。在一维情况下,Wishart分布就变成了公式定义的Gamma分布 Gam ( λ ∣ a , b ) \text{Gam}(\lambda|a,b) Gam(λa,b),参数为 a = ν 2 , b = 1 2 W a=\frac{\nu}{2},b=\frac{1}{2W} a=2ν,b=2W1

3.2.15 Student’t分布

Student‘t分布可以通过以下的方式获得:拿出一元高斯分布的精度的共轭先验,然后吧精度变量积分出来。因而这个分布可以看作是无限多个有着相同均值不同方差的高斯分布的混合。
St ( x ∣ μ , λ , ν ) = Γ ( ν 2 + 1 2 ) Γ ( ν 2 ) λ π ν ( 1 + λ ( x − μ ) 2 ν ) − ν 2 − 1 2 \text{St}(x|\mu,\lambda,\nu)=\frac{\Gamma(\frac{\nu}{2}+\frac{1}{2})}{\Gamma(\frac{\nu}{2})}\sqrt{\frac{\lambda}{\pi\nu}}(1+\frac{\lambda(x-\mu)^{2}}{\nu})^{-\frac{\nu}{2}-\frac{1}{2}} St(xμ,λ,ν)=Γ(2ν)Γ(2ν+21)πνλ (1+νλ(xμ)2)2ν21

E [ x ] = μ ,  when  ν > 1 \mathbb{E}[x]=\mu,\text{ when }\nu>1 E[x]=μ, when ν>1

var [ x ] = 1 λ ν ν − 2 \text{var}[x]=\frac{1}{\lambda}\frac{\nu}{\nu-2} var[x]=λ1ν2ν

mode [ x ] = μ \text{mode}[x]=\mu mode[x]=μ

这里 ν > 0 \nu>0 ν>0被称为分布的自由度数量。 ν = 1 \nu=1 ν=1的特殊情况是柯西分布。对于一个 D D D维变量 x \pmb x xxx,Student’t分布是将多元高斯的精度矩阵关于共轭Wishart先验分布的结果,形式为
St ( x ∣ μ , Λ , ν ) = Γ ( ν 2 + D 2 ) Γ ( ν 2 ) ∣ Λ ∣ ( ν π ) D 2 ( 1 + Δ 2 ν ) − ν 2 − D 2 \text{St}(\pmb x|\pmb\mu,\pmb\Lambda,\nu)=\frac{\Gamma(\frac{\nu}{2}+\frac{D}{2})}{\Gamma(\frac{\nu}{2})}\frac{\sqrt{|\pmb\Lambda|}}{(\nu\pi)^{\frac{D}{2}}}(1+\frac{\Delta^{2}}{\nu})^{-\frac{\nu}{2}-\frac{D}{2}} St(xxxμμμ,ΛΛΛ,ν)=Γ(2ν)Γ(2ν+2D)(νπ)2DΛΛΛ (1+νΔ2)2ν2D

E [ x ] = μ ,  when  ν > 2 \mathbb{E}[\pmb x]=\pmb\mu,\text{ when }\nu>2 E[xxx]=μμμ, when ν>2

cov [ x ] = ν ν − 2 Λ − 1 \text{cov}[\pmb x]=\frac{\nu}{\nu-2}\pmb\Lambda^{-1} cov[xxx]=ν2νΛΛΛ1

mode [ x ] = μ \text{mode}[\pmb x]=\pmb\mu mode[xxx]=μμμ

其中, Δ 2 \Delta^{2} Δ2是马氏距离,即
Δ 2 = ( x − μ ) T Λ ( x − μ ) \Delta^{2}=(\pmb x-\pmb\mu)^{T}\pmb\Lambda(\pmb x-\pmb\mu) Δ2=(xxxμμμ)TΛΛΛ(xxxμμμ)

在极限 ν → ∞ \nu\rightarrow\infty ν情况下,Student’t分布简化为均值 μ \pmb\mu μμμ,精度 Λ \pmb\Lambda ΛΛΛ的高斯分布。Student’t分布提供了对高斯分布泛化的一种形式,这种分布的最大似然参数值对离群点比较鲁棒。

3.2.16 ζ ( Z i p f ) 分 布 \zeta(Zipf)分布 ζ(Zipf)

ζ \zeta ζ分布,有时候也称为Zipf分布。假设随机变量 X X X服从 ζ \zeta ζ分布,那么它的分布列如下所示
P ( X = k ∣ α ) = C k α   k = 1 , 2 , . . . P(X=k|\alpha)=\frac{C}{k^{\alpha}}\text{ }k=1,2,... P(X=kα)=kαC k=1,2,...

其中 α > 0 \alpha>0 α>0为参数,为使得参数归一化,因此有
C = [ ∑ k = 1 ∞ ( 1 k ) α ] − 1 C=[\sum\limits_{k=1}^{\infty}(\frac{1}{k})^{\alpha}]^{-1} C=[k=1(k1)α]1

ζ \zeta ζ分布来源于 ζ \zeta ζ函数,即
ζ ( s ) = ∑ k = 1 ∞ ( 1 k ) s \zeta(s)=\sum\limits_{k=1}^{\infty}(\frac{1}{k})^{s} ζ(s)=k=1(k1)s

即数学中熟知的黎曼 ζ \zeta ζ函数。
其中,
E [ X ] = ζ ( α ) ζ ( α − 1 ) \mathbb{E}[X]=\frac{\zeta(\alpha)}{\zeta(\alpha-1)} E[X]=ζ(α1)ζ(α)

var [ X ] = ζ ( α ) ζ ( α − 2 ) − [ ζ ( α ) ζ ( α − 1 ) ] 2 \text{var}[X]=\frac{\zeta(\alpha)}{\zeta(\alpha-2)}-[\frac{\zeta(\alpha)}{\zeta(\alpha-1)}]^{2} var[X]=ζ(α2)ζ(α)[ζ(α1)ζ(α)]2

4. 应用

概率分布函数在很多数学概率理论中有很多应用,包括很多离散随机变量和连续随机变量中。下面就有很多例子和应用。
帕斯卡分布最为经典的问题是巴拿赫火柴盒问题:波兰数学家巴赫随身携带着两盒火柴盒,分别装在两个衣袋里,每次使用时候,便随机地从其中一盒中取出一根。开始的时候每盒有 n n n根火柴,现在我们想得到当其中一盒火柴用完,而另外一盒火柴根数 r r r的分布规律。

问题是这样解决的,不妨假设数学家能够看到火柴盒里的火柴,并且最后甲盒子为空,假设乙盒子里面最后剩下 r r r根火柴,在甲盒子里取了 n n n次火柴,在乙盒子里面取了 n − r n-r nr次火柴,并且最后一次取火柴是从甲盒子里取出里面最后一根。由于取火柴取火柴也是随机的,因此从甲盒子或者乙盒子取一次火柴的概率是相等的,都是 1 2 \frac{1}{2} 21,取火柴问题即为 2 n − r 2n-r 2nr次重复、独立的伯努利试验中有 n n n次失败, n − r n-r nr次失败,并且最后一次试验是成功的帕斯卡分布,从而有
P ( 2 n − r , n , 1 2 ) = ( 2 n − r − 1 n − 1 ) ( 1 2 ) n − 1 ( 1 2 ) n − r ( 1 2 ) 1 = ( 2 n − r − 1 n − 1 ) ( 1 2 ) 2 n − r P(2n-r,n,\frac{1}{2})=\binom{2n-r-1}{n-1}(\frac{1}{2})^{n-1}(\frac{1}{2})^{n-r}(\frac{1}{2})^{1}=\binom{2n-r-1}{n-1}(\frac{1}{2})^{2n-r} P(2nr,n,21)=(n12nr1)(21)n1(21)nr(21)1=(n12nr1)(21)2nr

由于甲乙两盒子的对称性,所以用完一盒时候另一盒还有 r r r根火柴的概率即为上式。
泊松分布也可以在排队理论中使用,关于排队理论中应用在以后的博文中会介绍到,这里限于篇幅不在过多叙述。
在贝叶斯推断中,狄利克雷分布作为多项式分布的共轭先验,被用于多项式分布、二项分布和类型分布中的参数估计。机器学习领域中,狄利克雷分布和广义狄利克雷分布常常用于构建混合模型来处理高维度的聚类和特征赋权等等非监督问题中。特别地,使用狄利克雷分布构建的主题模型,即隐含狄利克雷分布(Latent Dirichlet Allocation,LDA),进行在自然语言处理中,在之后的博文中将会介绍在自然语言处理中的LDA模型。

柯西分布、WeiBull 分布一般用于电子器件的损耗率、对接受到的杂波信号的依分布建模等等。无线通信技术中,相对指数衰减频道模型,WeiBull 衰减模型对衰减频道建模有着较好的拟合度。
在很多问题中,有些分布函数并不能够很好地描述一些数据分布规律,或多或少会有一些参数上的差异性质。其中解决这个问题一般会加上一些平滑函数来改善这些函数分布规律:

f ( x ) = g ( x ) ⋅ dist ( x ) f(x)=g(x)\cdot \text{dist}(x) f(x)=g(x)dist(x)

其中, g ( x ) g(x) g(x)为平滑函数, dist \text{dist} dist为分布函数。在改进这些分布函数的同时,也要注意到一些分布函数的性质来确定平滑函数中参数。

5. 小结

本文详细介绍了一些概率函数分布,对于每一种概率分布函数都有不同特点和应用途径。在今后的机器学习和深度学习中熟悉并熟练使用这些概率分布函数,以便更好地发挥独特的作用。

6. 参考文献

[1] 概率论教程,钟开莱
[2] 工程数学:概率统计简明教程,同济大学数学系编
[3] 概率论基础教程,Sheldon Ross
[4] Pattern Recognition And Machining Learning Christopher M. Bishop

  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值