2.1 Introduction 简介
对概率一般有两种理解(interpretations):
- frequentist interpretation,
- 这个层面上是说,概率可以看作是多次事件实验的发生的频率的逼近
- 举个例子,假如进行很多次抛硬币实验,会发现最终硬币会出现正面的概率为0.5
- Bayesian interpretation,
- 贝叶斯派常把概率当做是量化事件不确定性的工具
- 原文 (probability is used to quantify our uncertainty about something)
- 贝叶斯派理解概率的好处是,可以拿来估算那些无法进行多次重复实验的事件
- 如2020年之前北极冰川融化的概率
- 贝叶斯派常把概率当做是量化事件不确定性的工具
2.2 A brief review of probability theory 概率论复习
2.2.1 Discrete random variables 离散随机变量
p(X=x) 表示离散随机变量 X 在有限或者可数无限集合中取 X=x 值时的概率, p() 称作是 probability mass function or pmf
2.2.2 Fundamental rules 基本规则
2.2.2.1 Probability of a union of two events 事件的并集
2.2.2.2 Joint probabilities 联合概率
- Joint probabilities 联合概率
- p(A,B)=p(A∧B)=p(A|B)P(B)=P(B|A)P(A)
- 联合概率可以通过条件概率得到,有时候称为 product rule
- margin distribution 边缘分布公式:
- p(A)=∑bp(A,B)=∑bp(A|B)p(B=b)
- 边缘分布可以有联合概率分布沿着特定的随机变量求和得到,有时候称为 sum rule or the rule of total probability
2.2.2.3 Conditional probability 条件概率
2.2.3 Bayes rule 贝叶斯规则
2.2.3.1 Example: medical diagnosis
癌症检测的敏感度是80%,即如果你有癌症,那么检测阳性的概率为80%, x=1 表示检测阳性, y=1 表示有癌症,上述的敏感度表示为: p(x=1|y=1)=0.8 ,事实上,癌症在人群中的发病率为 0.004,即 p(y=1)=0.004 ,这个是前验概率,prior probability。忽略先验信息而想当然的认为检测阳性后就有80%的可能会患癌症,叫做基数谬误,base rate fallacy,而false positive or false alarm,即诊断错误的概率,没有癌症但是检测为阳性,概率为 p(x=1|y=0)=0.1 。
利用上面的信息和贝叶斯规则,就可推断出正确的答案了,即检测为阳性的情况下,实际也是的癌症的概率为
2.2.3.2 Example: Generative classifiers
- 生成分类器(generative classifier)
- 因为我们用到了class-conditional density p(x|y=c) 和 先验 prior p(y=c)
- 判别分类器(discriminative classifier),直接判别
2.2.4 Independence and conditional independence 独立和条件独立
X, Y 是无条件独立 unconditional independent 或者 marginally independent ,用 X⊥Y 表示,如下:
现实中无条件独立很少见,条件独立更常见
此外,图模型中也有解释,见chapter 10
Theorem 2.2.1
X⊥Y|Z 当且仅当存在函数 g,h 使得 p(x,y|z)=g(x,z)h(y,z)
Conditional Independent 能让我们一点点建立大概率模型,朴素贝叶斯,马尔科夫模型,图模型中均有应用。
2.2.5 Continuous random variables 连续随机变量
连续随机变量X取值在区间
[a,b]
内,a
≤X≤b
,定义事件
A=(X≤a)
和事件
B=(X≤b)
,事件
W=(a<X≤b)
,那么事件
B,A,W
的关系是
B=A∨W
,即事件
B
包含
A
和
W
可得
p(B)=p(A)+p(W)
即
p(W)=p(B)−p(A)
由此定义函数
F(q)≜p(X≤q)
称为积累分布函数(cumulative distribution function, cdf),显然是单调递增函数(monotonically increasing function)
反之可以求积分,
2.2.6 Quantiles 分位数
对任意的 p 有 0<p<1 , 称 P(X)=p 的 X 为此分布的分数位(quantile),比如某分布有 F(3)=0.5 表示 P(X≤3)=0.5 ,则 3 就是这个分布的中值(median)分位数。换句话说,分位数就是取到某概率时的 x 坐标值。分布函数的反函数(或者叫逆函数,inverse function), F−1 可以很方便地表示分数位。
思考,为什么区间 [μ−1.96σ,μ+1.96σ] 占据了高斯分布中 95% 的数据?
2.2.7 Mean and variance 均值和方差
平均数(Mean)定义如下:
离散随机变量: E(x)≜∑x∈Xx p(x)
连续随机变量: E(x)≜∫x∈Xx p(x) dx
方差定义如下:
2.3 Some common discrete distributions 常见的离散分布
2.3.1 The binomial and Bernoulli distributions 二项分布和伯努利分布
考虑扔硬币问题,假如扔
n
次硬币,那么正面朝上的次数定义为随机变量
X
,显然有
X∈{0,...,n}
,若正面朝上的概率为
θ
的话,那么可以说
X
符合二项分布,写作
X∈Bin(n,θ)
,pmf(概率质量函数)为:
上面的组合数称为二项系数(binomial coefficient),二项分布的期望为 nθ ,方差为 nθ(1−θ)
假如只扔一次硬币,那么
X∈{0,1}
,那么随机变量
X
是符合伯努利分布的,写作
X∈Ber(x|θ)
,pmf(概率质量函数)为:
所以,伯努利分布只是二项分布的一种特殊情况。
2.3.2 The multinomial and numtinoulli distributions 多项式分布和多努利分布
多项式分布可以对一个
K
面的筛子(K-side die)建模,定义随机向量
x=(x1,...,xK)
,其中
xj
表示投掷
n
次筛子时第
j
面出现的次数。要计算随机向量出现的概率,这应该是一个有放回的组合问题,概率质量函数如下:
令
n=1
,意味着只投掷一次筛子,此时随机向量
x
就是一堆的
0
和一个
1
而已,称作是 one-hot encoding,可写作
x=[I(x=1),...,I(x=K)]
,概率质量函数 pmf 为:
这个分布有三种叫法:
1. categorical distributionor
2. discrete distribution
3. multinoulli distribution
当然也有专门的符号表示:
2.3.2.1 Application: DNA sequence motifs
这个例子没太看懂要做啥,不太重要吧?
2.3.3 The Poisson distribution 泊松分布
给定离散随机变量 X∈{0,1,2,...} , 定义泊松分布的 pmf 为:
第一项是归一化系数,为了保证整个分布的和为 1 ,其中参数 λ>0
2.3.4 The empirical distribution 经验分布
经验分布又叫经验测量(empirical measure),给定一组数据 D={x1,...,xN} ,我们想统计一下里面有多少数据是在集合 A 中的,按照下面的公式计算:
广义上可以将每个样本关联一个权重,那么有:
然而翻了一下网上对经验分布的解释,一般表述为,把样本集中的所有样本按照从小到大的顺序排序,计算其积累分布,就得到了经验分布。
2.4 Some commom continuous distributions
下面提到的连续分布都是一维的概率分布(univariate(one-dimensional) continuous probability distributions)
2.4.1 Gaussian (normal) distribution 高斯分布
统计学和机器学习中最常用的应该就是高斯分布了,其概率密度函数(pdf)公式如下:
其中,参数 μ=E[X] 表示平均数, σ2=var[X] 表示方差, 2πσ2−−−−√ 表示归一化的常数,保证密度的积分为 1 。可以用 X∼N(μ,σ2) 来表示 p(X=x)∼N(μ,σ2) 。一般用 X∼N(0,1) 表示 X 服从标准高斯分布(standard normal distribution)
定义 λ=1σ2 为高斯的精密度,和方差意思相对。高的精密度意味着小方差,数据会集中在均值附近。
高斯分布的积累分布函数(cdf)为概率密度函数(pdf)的积分:
可以用误差函数 error function (erf) 来计算,
其中 z=(x−μ)σ , erf(x)≜2π√∫x0e−t2
高斯分布之所以在统计学中应用如此之广泛,除了其两个参数很有解释(interpret)之外,而且很适合拿来给残差(residual error)或者说噪音(error)建模等诸多原因。
2.4.2 Degenerate pdf 退化的概率密度函数
限制 σ2→0 ,高斯分布的函数图像变成了一个无限高,无限瘦,以 μ 为中心的脉冲:
δ 函数可以拿来做筛选,信号与系统中常用到,如: ∫∞−∞f(x)δ(x−μ)dx=f(μ)
然而高斯分布一般会对异常值(outliers,离群值)很敏感,因为 log-probability 只是二次衰减。一个更鲁棒的分布是 Student t distribution,pdf 定义如下:
图 Figure 2.8 展示了异常值(outliers)对高斯分布影响很大,但是对 T 分布和拉普拉斯分布影响较小。
若取 ν=1 ,那么此时称为是 柯西或者洛伦兹分布(Cauchy or Lorentz distribution),一般取 ν=4 ,T 分布会取得很好的效果,当 ν≫5 时,学生分布会快速接近高斯分布,失去其鲁棒性的性质。
2.4.3 The Laplace distribution 拉普拉斯分布
拉普拉斯分布有很重的尾巴(with heavy tails),又称作是 双边指数分布(double sided exponential distribution),pdf 如下:
2.4.4 The gamma distribution 伽马分布
伽马分布的变量为正实数,有两个参数来定义, a>0 决定形状(shape), b>0 决定比率(rate),
伽马分布的一些特殊情况:
1. Exponential distribution
Expon(x|λ)≜Ga(x|1,λ)
2. Erlang distribution 和伽马分布相同,只是
a
要求为整数,一般固定为
2
3. Chi-squared distribution
X2(x|ν)≜Ga(x|ν2,12)
若 X∼Ga(a,b) ,那么有 1X∼IG(a,b) ,其中 IG 为逆伽马分布(Inverse Gamma)其性质略。
2.4.5 The Beta distribution 贝塔分布
定义如下:
2.4.6 Pareto distribution 柏拉图分布
柏拉图分布侧重对数据长长的“尾巴”建模,pdf 如下:
2.5 Joint probability distributions 联合概率分布
前面讲的都是一元概率分布(univariate probability distributions),下面拓展到联合概率分布上(Joint probability distributions)。
向量
p=(x1,...,xD)
有
D>0
个向量,联合概率分布可以对这些变量之间的相互关系进行建模。如果所有的变量都是离散的,那么可以用多维矩阵来表示此联合分布,每个维度对应一个随机变量。
实际中,我们可以做随机变量之间的条件独立性来减少参数的个数。
对于连续分布,可以显示概率密度函数为确定的泛函的形式。
2.5.1 Covariance and correlation 协方差和相关性
两个随机变量 X 和 Y 的协方差(covariance)可以衡量 X 和 Y 的相关程度。定义如下:
引申到 d 维的随机向量 x ,可以定义协方差矩阵(covariance matrix)为下列的对称的,正定的矩阵(symmetric, positive definite matrix):
- 随机变量的协方差矩阵 Σ 是对称矩阵和半正定矩阵
- 作为实对称矩阵,其主要性质之一就是可以正交对角化,即存在正交矩阵U,使得 UTΣU=Λ
- 作为半正定矩阵,我们可以对协方差矩阵进行Cholesky分解:半正定矩阵
Σ
,可以分解为
Σ=UTΛU
,其中
U
是上三角阵,
Λ
是对角线元素都非负的对角矩阵。所以
Σ=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]
这样一来,矩阵 Σ=CTC ,其中 C=Λ1/2U 。
因为协方差的取值在 0 到正无穷之间,所以有时候需要做归一化处理,于是引申出了相关系数(Pearson correlation coefficient)的概念,公式如下:
R 的取值在 [−1,1] 之间,矩阵中的对角项都是同一个随机变量,因此相关系数为 1 ,而事实上,相关系数为 1 的充要条件是两个随机变量线性相关。如可以用相应的两个实数 a,b 联系起来: Y=aX+b
若随机变量 X,Y 相互独立(independent),意味着有 p(X,Y)=P(X)p(Y) 那么有 cov(X,Y)=0 ,因此相关系数为 0 可以表示两者不相关。然而反过来,不相关并不意味着两者一定要独立。(uncorrelated does not imply independent)
所以相关系数这鬼东西就没啥用喽!
2.5.2 The multivariate Gaussian 多元高斯
多元高斯(Multivariate Gaussian, Multivariate Normal, MVN)是对连续变量最常用的联合概率密度函数。 D 维的 MVN 的概率密度函数定义如下:
2.5.3 Multivariate Student t distribution 多元 t 分布
公式太长了且不常用,略。
2.5.4 Dirichlet distribution 狄利克雷分布
贝塔分布(Beta distribution)的多元推广版本,称为狄利克雷分布,且分布符合概率单纯型的定义。(即该分布中的任意两点的运算,仍然落在该概率分布中,因此是凸集,且限定凸集的形状为单纯型)。
概率密度函数 pdf 为:
狄利克雷分布的一些性质如下:
2.6 Tranformations of random variables 随机变量的变换
即已知随机变量 x 满足 x∼p() ,求 y=f(x) 的分布。
2.6.1 Linear transformations 线性变换
假设 f(x) 为线性函数, y=f(x) ,那么 y 的均值为
2.6.2 General transformations 一般的变换
若 X 是离散的随机变量,概率密度函数可以通过把所有的 y 加起来得到,即
若
X
是连续的随机变量,考虑对应
Y
的积累分布函数(cdf),
求概率密度函数,可以通过求导数得到,带入上式的结果可得:
2.6.2.1 Multivariate change of variables *
上述问题的多元推广,这里先引入雅各比矩阵(Jacobian matrix)的概念,定义函数 f:Rn→Rn ,令 y=f(x) ,那么雅各比矩阵为:
上小节的结论推广如下:
2.6.3 Central limit theorem 中心极限定理
首先,中心极限定理很神奇。其次,上面讲的随机变量的变换,其实是为了这个定理做的铺垫。(Really? I doublt that.)问题描述如下,假设有一组的独立同分布(independent and identically distributed, iid)的样本数据,其均值和方差分别是 μ 和 σ2 ,那么可以定义求和函数 SN=∑Ni=1Xi ,其实是原随机变量的变换,但是这个得到的新随机变量,是逐渐逼近高斯分布的。注意这里的 X 的分布是没有限制的,可以是任意分布,只要所有数据符合独立同分布即可。概率密度函数如下:
也可以在此基础上做归一化,有
这些就是中心极限定理的内容。中心极限定理在概率统计里非常重要,是概率论中的非正式首席定理,也是后续很多理论的基石。可以参考《正态分布的前世今生》这篇科普短文。
2.7 Monte Carlo approximation 蒙特卡洛近似
一般来说,用 the change of variables formula 来计算某随机变量函数的分布是很困难的,因此要采取求近似解的方法,如蒙特卡罗模拟。首先,我们从要求的分布中采样(比如用马尔可夫链蒙特卡洛方法,Markov chain Monte Carlo or MCMC),这 S 个样本为 x1,...,xS ,而 f(X) 的分布就可以用经验分布 {f(xs)}Ss=1 来估计(approximation)。要求均值的话,也可以近似出来,
下面的结论也成立:
- x¯=1S∑Ss=1xs→E[X]
- 1S∑Ss=1(xs−x¯)2→E[X]
- 1S#{xs≤c}=→P(X≤c)
- median{x1,...,xS}=median(X)
2.7.1 Example: change of variables, the MC way
已知均匀分布: x∼Unif(−1,1) 和 y=f(x)=x2 ,那么求 y 的分布。
2.7.2 Example: estimating π by Monte Carlo integration
用蒙特卡洛积分来估计 π 的值,直接计算下列的定积分,
故可得 π=I/r2 ,后统计随机点 (xs,ys) 的出现的概率为 p(xs,ys) ,可以近似的算出 π 的值。
2.7.3 Accuracy of Monte Carlo approximation
蒙特卡洛近似的准确率取决于样本的大小,因为误差是随着样本容量的增大而逐渐逼近高斯分布的。即
当然,实际的方差 σ2 也是不知道的,也要通过蒙特卡洛的方法来估计,
要深刻理解蒙特卡洛的方法不简单,因为其方法要求的数学知识太多,可以参考《LDA数学八卦》这篇都科普短文,当然我们后面章节还会再次提到。
2.8 Information theory 信息理论
信息理论做的事,基本就是用紧凑的方式表示数据,或者叫数据压缩(data compression)或者信源编码(source coding),使得数据在传输的时候能保持很好的容错性。
2.8.1 Entropy 熵
随机变量 X 的熵可以用来表示其不确定性,定义如下:
从熵的定义中很容易得到推论,令熵最大(为 log2K )的分布是均匀分布的,此时不确定性最大;相反,可以令熵最小(为零)的分布是 一个脉冲,delta function,此时不确定性为0,即完全100%地确定。
我们可以通过伯努利分布的例子来探究一下熵的直观意义。已知
p(X=1)=θ
,那么熵为:
从插图 Figure 2.21 中可以看到熵最大最小的情况。
有时候,我们会把方差和熵拿来做一个比较,因为这两个量都可以衡量数据的分布情况,且看起来负相关。然而方差侧重的是数据的离散程度,和随机变量的取值有关;而熵则只关注数据的分布,和数据本身的取值无关,这点也表现在熵的定义上面。
2.8.1-2 cross-entropy 交叉熵
离散的信息熵有时候可以解释为编码数据集需要的比特数的期望值,如对于数据集 D={A,B,C,D} 的一个分布 p={12,12,0,0} ,熵 H(p)=−∑4j=1pilogpi=1 ,即只需要一个比特就可以编码这个分布。
假如我们的得到了一个错误的分布 q={14,14,14,14} ,我们可以用 q 来编码分布 p ,可以这样来计算熵, H(p,q)=−∑4j=1pilogqi=2 ,即用错误的分布来编码原来的分布,需要两个比特位才能满足,即四个字母都要编码进去。
上面这种计算两个分布的熵的形式,就是交叉熵的概念,
2.8.2 KL divergence 离散度
KL散度,Kullback-Leibler divergence,或者叫相对熵(relative entropy),定义如下:
可以发现离散度就是交叉熵减去原来的熵,且总是非负的。
Theorem 2.8.1. (Information inequality) KL(p||q)≥0 with equality iff p=q
信息不等式表示,当且仅当两个分布是相同的,相对熵才为零。不等式的正确性可以用琴生不等式证明。
2.8.3 Mutual information 互信息
考虑两个离散的随机变量 X,Y ,定义如下:
恒有 I(X,Y)≥0 成立,当且仅当满足 p(X,Y)=p(X)p(Y) 时等号成立。即只有变量独立时,互信息才为零。
把互信息写成联合熵和条件熵的形式:
另外有衡量点对点之间的互信息(pointwise mutual information, PMI),定义为在两个事件中,