本文目录
1. 古典概率
在概率的定量计算上,频率学派依赖的基础是古典概率模型。在古典概率模型中,试验的结果只包含有限个基本事件,且每个基本事件发生的可能性相同。假设所有基本事件的数目为 n,待观察的随机事件 A 中包含的基本事件数目为 k,则古典概率模型下事件概率的计算公式为:
P
(
A
)
=
k
n
P ( A ) = \frac { k } { n }
P(A)=nk
2. 条件概率
条件概率(conditional probability)是根据已有信息对样本空间进行调整后得到的新的概率分布。假定有两个随机事件 A 和B,条件概率就是指事件 A 在事件 B已经发生的条件下发生的概率,用以下公式表示:
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
P ( A | B ) = \frac { P ( A B ) } { P ( B ) }
P(A∣B)=P(B)P(AB)
上式中的P(AB)称为联合概率(joint probability),表示的是 A和B两个事件共同发生的概率。如果联合概率等于两个事件各自概率的乘积,即P(AB)=P(A)⋅P(B),说明这两个事件的发生互不影响,即两者相互独立。对于相互独立的事件,条件概率就是自身的概率,即P(A|B)=P(A)。
3. 贝叶斯公式
基于条件概率可以得出全概率公式(law of total probability)。全概率公式的作用在于将复杂事件的概率求解转化为在不同情况下发生的简单事件的概率求和,即:
P
(
A
)
=
∑
i
=
1
N
P
(
A
∣
B
i
)
⋅
P
(
B
i
)
P ( A ) = \sum _ { i = 1 } ^ { N } P ( A | B _ { i } ) \cdot P ( B _ { i } )
P(A)=i=1∑NP(A∣Bi)⋅P(Bi)
∑ i = 1 N P ( B i ) = 1 \sum _ { i = 1 } ^ { N } P ( B _ { i } ) = 1 i=1∑NP(Bi)=1
全概率公式代表了频率学派解决概率问题的思路,即先做出一些假设 P ( B i ) {P(B_i)} P(Bi),再在这些假设下讨论随机事件的概率 P ( A ∣ B i ) {P(A|B_i)} P(A∣Bi)。
对全概率公式 进行整理,就演化出了求解“逆概率”问题。所谓“逆概率”解决的是在事件结果已经确定的条件下P(A),推断各种假设发生的可能性
P
(
B
i
∣
A
)
)
{P(B_i|A))}
P(Bi∣A))。其通用的公式形式被称为贝叶斯公式:
P
(
B
i
∣
A
)
=
P
(
A
∣
B
i
)
⋅
P
(
B
i
)
∑
j
=
1
N
P
(
A
∣
B
j
)
.
P
(
B
j
)
P ( B _ { i } | A ) = \frac { P ( A | B _ { i } ) \cdot P ( B _ { i } ) } { \sum _ { j = 1 } ^ { N } P ( A | B _ { j } ) . P ( B _ { j } ) }
P(Bi∣A)=∑j=1NP(A∣Bj).P(Bj)P(A∣Bi)⋅P(Bi)
贝叶斯公式可以进一步抽象为贝叶斯定理(Bayes’ theorem):
P
(
H
∣
D
)
=
P
(
D
∣
H
)
⋅
P
(
H
)
P
(
D
)
P ( H | D ) = \frac { P ( D | H ) \cdot P ( H ) } { P ( D ) }
P(H∣D)=P(D)P(D∣H)⋅P(H)
式中的 P(H)被称为先验概率(prior probability),即预先设定的假设成立的概率;P(D|H)被称为似然概率(likelihood function),是在假设成立的前提下观测到结果的概率;P(H|D)被称为后验概率(posterior probability),即在观测到结果的前提下假设成立的概率。
从科学研究的方法论来看,贝叶斯定理提供了一种全新的逻辑。它根据观测结果寻找合理的假设,或者说根据观测数据寻找最佳的理论解释,其关注的焦点在于后验概率。概率论的贝叶斯学派(Bayesian probability)正是诞生于这种理念。
4. 概率的估计方法
概率的估计有两种方法:最大似然估计法(maximum likelihood estimation)和最大后验概率法(maximum a posteriori estimation),两者分别体现出频率学派和贝叶斯学派对概率的理解方式。
最大似然估计法的思想是使训练数据出现的概率最大化,依此确定概率分布中的未知参数,估计出的概率分布也就最符合训练数据的分布。
最大后验概率法的思想则是根据训练数据和已知的其他条件,使未知参数出现的可能性最大化,并选取最可能的未知参数取值作为估计值。
在估计参数时,最大似然估计法只需要使用训练数据,最大后验概率法除了数据外还需要额外的信息,就是贝叶斯公式中的先验概率。
5. 随机变量
概率论的一个重要应用是描述随机变量(random variable)。根据取值空间的不同,随机变量可以分成两类:离散型随机变量(discrete random variable)和连续型随机变量(continuous random variable)。在实际应用中,需要对随机变量的每个可能取值的概率进行描述。
离散变量的每个可能的取值都具有大于 0 的概率,取值和概率之间一一对应的关系就是离散型随机变量的分布律,也叫概率质量函数(probability mass function)。概率质量函数在连续型随机变量上的对应就是概率密度函数(probability density function)。
对概率密度函数进行积分,得到的才是连续型随机变量的取值落在某个区间内的概率。
6. 离散分布
6.1 两点分布
两点分布(Bernoulli distribution):适用于随机试验的结果是二进制的情形,事件发生 / 不发生的概率分别为 p/(1−p)。任何只有两个结果的随机试验都可以用两点分布描述,抛掷一次硬币的结果就可以视为等概率的两点分布。
6.2 二项分布
二项分布(Binomial distribution):将满足参数为 p的两点分布的随机试验独立重复 n次,事件发生的次数即满足参数为(n,p)的二项分布。二项分布的表达式为: P ( X = k ) = C h k ⋅ p k ⋅ ( 1 − p ) ( n − k ) , 0 ≤ k ≤ n {P ( X = k ) = C _ { h } ^ { k } \cdot p ^ { k } \cdot \ ( 1 - p ) ( n - k ) , 0 \leq k \leq n } P(X=k)=Chk⋅pk⋅ (1−p)(n−k),0≤k≤n
6.3 泊松分布
泊松分布(Poisson distribution):放射性物质在规定时间内释放出的粒子数所满足的分布,参数为 λ的泊松分布表达式为 P ( X = k ) = λ k ⋅ e − λ ( k ! ) {P ( X = k ) = \frac {\lambda ^ { k } \cdot e ^ { - \lambda }} { ( k ! )} } P(X=k)=(k!)λk⋅e−λ。当二项分布中的n很大且p很小时,其概率值可以由参数为λ=np的泊松分布的概率值近似。
7. 连续分布
7.1 均匀分布
均匀分布(uniform distribution):在区间 (a,b)上满足均匀分布的连续型随机变量,其概率密度函数为 1/(b−a),这个变量落在区间(a,b)内任意等长度的子区间内的可能性是相同的。
7.2 指数分布
指数分布(exponential distribution):满足参数为θ指数分布的随机变量只能取正值,其概率密度函数为 e − x / θ / θ , x > 0 {e ^ { - x / \theta } / \theta , x > 0 } e−x/θ/θ,x>0。指数分布的一个重要特征是无记忆性:即 P ( X > s + t ∣ X > s ) = P ( X > t ) {P ( X > s + t | X > s ) = P ( X > t ) } P(X>s+t∣X>s)=P(X>t)。
7.3 正太分布
正态分布(normal distribution):参数为正态分布的概率密度函数为:
f
(
x
)
=
1
2
π
⋅
δ
⋅
e
−
(
x
−
μ
)
2
2
δ
2
f ( x ) = \frac { 1 } { \sqrt { 2 \pi } \cdot \delta } \cdot e ^ { - } \frac { ( x - \mu ) ^ { 2 } } { 2 \delta ^ { 2 } }
f(x)=2π⋅δ1⋅e−2δ2(x−μ)2
当 μ=0,σ=1 时,上式称为标准正态分布。正态分布是最常见最重要的一种分布,自然界中的很多现象都近似地服从正态分布。
8. 数字特征
除了概率质量函数 / 概率密度函数之外,另一类描述随机变量的参数是其数字特征。数字特征是用于刻画随机变量某些特性的常数,包括数学期望(expected value)、方差(variance)和协方差(covariance)。
数学期望即均值,体现的是随机变量可能取值的加权平均,即根据每个取值出现的概率描述作为一个整体的随机变量的规律。方差表示的则是随机变量的取值与其数学期望的偏离程度。方差较小意味着随机变量的取值集中在数学期望附近,方差较大则意味着随机变量的取值比较分散。
数学期望和方差描述的都是单个随机变量的数字特征,如果要描述两个随机变量之间的相互关系,就需要用到协方差和相关系数。协方差度量了两个随机变量之间的线性相关性,即变量 Y 能否表示成以另一个变量 X 为自变量的 aX+b 的形式。
根据协方差可以进一步求出相关系数(correlation coefficient),相关系数是一个绝对值不大于 1 的常数,它等于 1 意味着两个随机变量满足完全正相关,等于 -1 意味着两者满足完全负相关,等于 0 则意味着两者不相关。无论是协方差还是相关系数,刻画的都是线性相关的关系。如果随机变量之间的关系满足 Y = X 2 {Y=X^2} Y=X2,这样的非线性相关性就超出了协方差的表达能力。