qq:2781993753@qq.com
- 介绍
概率论不过是简化为计算的常识。-皮埃尔·拉普拉斯,1812年。
在前一章中,我们看到了概率在机器学习中如何发挥有用的作用。在本章中,我们将更详细地讨论概率论。我们不需要太多的篇幅来深入讨论细节——为此,您最好查阅一些关于这一主题的优秀教科书,例如(Jaynes 2003;Bertsekas and Tsitsiklis 2008;Wasserman 2004)。但我们将在后面的章节中简要回顾您需要的许多关键思想。
在我们开始更多的技术性材料之前,让我们停下来问:什么是概率?我们都熟悉这样一句话:“硬币正面落地的概率是0.5”。但这是什么意思?实际上,对概率至少有两种不同的解释。一种被称为频率学派解释。在这种观点中,概率代表事件的长期频率。例如,上面的陈述意味着,如果我们多次抛硬币,我们期望经常正面落地。
另一种解释称为概率贝叶斯解释。在这种观点中,概率被用来量化我们对某事的不确定性,因此它基本上与信息有关,而不是重复试验(Jaynes 2003)。在贝叶斯观点中,上述说法意味着我们相信硬币在下一次掷硬币时同样可能正面或反面着地。
贝叶斯解释的一大优点是,它可以用来模拟我们对不具有长期频率的事件的不确定性。例如,我们可能想计算到2020年北极冰盖融化的概率。此事件将发生零次或一次,但不能重复发生。然而,我们应该能够量化我们对这一事件的不确定性,基于我们认为这一事件的可能性,我们将(希望)采取适当的行动(关于不确定性下的最优决策的讨论,见第5.7节)。为了给出更多面向机器学习的例子,我们可能已经收到了一个特定的电子邮件,并希望计算它是垃圾邮件的概率,或者我们可以在我们的雷达屏幕上观察到一个“光点”,并想计算相应目标(无论是鸟、飞机还是导弹)位置上的概率分布。
在所有这些情况下,重复试验的想法是没有意义的,但贝叶斯解释是有效的,确实是相当自然的。因此,我们将采用本书中的贝叶斯解释。幸运的是,无论采用哪种解释,概率论的基本规则都是一样的。
图1 (a)在{1,2,3,4}上的均匀分布,p(x=k)=1/4。(b)退化分布p(x)=1如果x=1,p(x)=0如果x∈{2,3,4}
1.2 概率论简述
这一节是对概率论基础知识的一个非常简短的回顾,对于那些“生疏”的读者来说,它仅仅是一个提神剂。已经熟悉这些基本知识的读者可以安全地跳过本节。
1.2.1 离散随机变量
表达式p(A)表示事件a为真的概率。例如,A可能是逻辑表达式“明天会下雨”。我们要求0≤p(A)≤1,其中p(A)=0表示事件肯定不会发生,p(A)=1表示事件肯定会发生。我们写来表示事件不是A的概率,这被定义为。我们经常写A=1表示事件A为真,A=0表示事件A为假。
我们可以通过定义一个离散随机变量x来扩展二元事件的概念,它可以取有限或可数无限集合x的任意值,我们用p(X=x)来表示X=x事件的概率,或者简称p(x)。这里p()被称为概率质量函数或pmf。这满足性质0≤p(x)≤1和。图2.1显示了在有限状态空间x={1,2,3,4,5}上定义的两个pmf。左边是均匀分布,p(x)=1/5,右边是退化分布,p(x)=I(x=1),其中i()是二进制指示符函数。这个分布表示x总是等于值1,换句话说,它是一个常数。
1.2.2 基本规则
在本节中,我们将回顾概率的基本规则
1.2.2.1 两事件并的概率
给定两个事件a和b,我们定义a或b的概率如下:
p(A ∨ B) = p(A) + p(B) − p(A ∧ B)
= p(A) + p(B) if A and B are mutually exclusive
1.2.2.2 联合概率
我们定义联合事件a和b的概率如下
p(A,B) = p(A ∧ B) = p(A|B)p(B)
这有时称为乘积规则。 给定两个事件p(A,B)的联合分布,我们定义边缘分布如下:
在这里我们对b的所有可能状态求和,我们可以用类似的方法定义p(b)。这有时被称为加法定律或全概率可以多次应用乘积规则来得出概率链规则
p(X1:D) = p(X1)p(X2|X1)p(X3|X2,X1)p(X4|X1,X2,X3) . . . p(XD|X1:D−1)
在这里我们引入类似于Matlab的符号1:d来表示集合{1,2,…,d}。
1.2.2.3 条件概率
假设事件b为真,我们定义事件a的条件概率如下:
1.2.3 贝叶斯规则
将条件概率的定义与乘积和规则相结合,产生了贝叶斯规则,也称为贝叶斯定理
1.2.3.1 示例:医疗诊断
作为如何使用此规则的示例,请考虑以下医疗诊断问题。假设你是一个40多岁的女人,你决定做一个乳腺癌的医学检查,叫做乳房X光检查。如果检测呈阳性,你患癌症的概率是多少?这显然取决于测试的可靠性。假设你被告知测试的敏感性为80%,这意味着,如果你得了癌症,测试的阳性概率为0.8。换句话说
p(x = 1|y = 1) = 0.8
其中x=1表示乳腺X光检查呈阳性,y=1表示乳腺癌。许多人认为他们有80%可能患癌症。但这是错误的! 它忽略了患乳腺癌的先验概率,幸运的是,这一概率非常低。
p(y = 1) = 0.004
忽略这一先验被称为基率谬误。我们还需要考虑到这一事实,即测试可能是假阳性或假警报。不幸的是,这种假阳性很有可能(用目前的筛查技术):
p(x = 1|y = 0) = 0.1
使用贝叶斯规则将这三个术语结合起来,我们可以如下计算正确答案
其中p(y = 0)= 1-p(y = 1)= 0.996。 换句话说,如果您测试呈阳性,那么您实际患乳腺癌的几率只有3%!
- 2.3.2 示例:生成分类器
我们可以概括医学诊断示例,以对任意类型的特征向量x进行如下分类:
这被称为生成分类器,因为它指定如何使用分类条件密度p(x | y = c)和先验分类p(y = c)生成数据,我们将在第3章和第4章中详细讨论此类模型。另一种方法是直接拟合后验类p(y = c | x)。而后一种方法是直接拟合类,这被称为判别式分类器。我们将在第8.6节中讨论两种方法的优缺点。
1.2.4 独立与条件独立
图2.1 计算p(x,y)= p(x)p(y),其中X⊥Y。 这里X和Y是离散的随机变量; X具有6个可能的状态(值),Y具有5个可能的状态。 两个这样的变量的一般联合分布将需要(6×5)-1 = 29个参数来定义(由于总和一的限制,我们减去1)。 通过假设(无条件)独立性,我们只需要(6 − 1)+(5 − 1)= 9个参数即可定义p(x,y)。
如果我们可以将结合表示为两个边缘的乘积(见图2.2),则我们说X和Y是无条件独立或边际独立的,表示为X⊥Y。
X ⊥ Y ⇐⇒ p(X, Y ) = p(X)p(Y )
通常,如果结合可以写为边缘的乘积,则我们说一组变量是相互独立的。
不幸的是,无条件的独立性是很少见的,因为大多数变量可以影响大多数其他变量。然而,通常这种影响是通过其他变量而不是直接的。因此,给定Z,我们说x和y是条件独立的(ci),前提是条件连接可以写成条件边缘的乘积。
当我们在第10章中讨论图形模型时,我们将看到我们可以把这个假设写成一个图形X-Z-Y,它捕捉到了一个直觉,即X和Y之间的所有依赖关系都是通过Z介导的。例如,如果知道今天是否下雨(事件Z),则明天(事件X)下雨的概率与今天地面是否潮湿(事件Y)无关。直觉上,这是因为Z“导致”了X和Y,所以如果我们知道Z,我们不需要知道y就可以预测x,反之亦然。我们将在第十章中进一步阐述这一概念。
ci的另一个特征是:
定理2.2.1。x y z如果存在函数g和h,则
p(x, y|z) = g(x, z)h(y, z)
对于所有的x,y,z使得p(z)>0。
证明见练习2.8
CI假设使我们能够从小块构建大型概率模型。 在整本书中,我们将看到许多示例。 特别是在3.5节中,我们讨论了朴素的贝叶斯分类器,在17.2节中,我们讨论了马尔可夫模型,在10章中,我们讨论了图形模型; 所有这些模型都大量利用CI属性。
- 2.5 连续随机变量
到目前为止,我们只考虑了不确定离散量的推理。我们现在将展示(以下(jaynes 2003,p107))如何将概率扩展到不确定连续量的推理。
假设X是某个不确定的连续量。 X位于a≤X≤b的任何间隔中的概率可以如下计算。 定义事件A =(X≤a),B =(X≤b)和W =(a <X≤b)。 我们有B = A∨W,并且由于A和W是互斥的,所以求和规则为
p(B) = p(A) + p(W)
因此
p(W) = p(B) − p(A)
定义函数。这被称为x的累积分布函数或cdf。这显然是单调递增函数。示例见图2.3(a)。用这个符号我们有
p(a < X ≤ b) = F(b) − F(a)
现在定义(我们假设这个导数存在);这称为概率密度函数或pdf。示例见图2.3(b)。给定pdf,我们可以计算连续变量在有限区间内的概率,如下所示:
当间隔变小时,我们可以写
P(x ≤ X ≤ x + dx) ≈ p(x)dx
我们要求p(x)≥0,但对于任何给定的x,p(x)>1是可能的,只要密度积分为1。例如,考虑均匀分布unif(a,b)
如果我们设置a=0和b=1/2,对于任意x∈[0,1/2],我们有p(x)=2
图2.3(a)标准法线N(0,1)的cdf图。 (b)对应的pdf。 每个阴影区域包含概率质量的α/ 2。 因此,非阴影区域包含1-α的概率质量。 如果分布是高斯N(0,1),则最左边的截止点是,其中Φ是高斯的cdf。 通过对称,最右边的截止点是。 如果α= 0.05,则中心间隔为95%,左边界为-1.96,右边界为1.96。
- 2.6 分位数
由于累计分布函数F是单调递增函数,它有一个逆函数;让我们用来表示它。如果F是X的累计分布函数,则是的值,使得,这称为F的分位数。是分布的中值,一半概率质量在左边,一半概率质量在右边。值和是下四分位数和上四分位数。
我们也可以使用逆分布函数来计算尾区概率。例如,如果是高斯分布的分布函数,则指向的左侧包含概率质量,如图2.3(b)所示。根据对称性,在右侧的点也包含质量的。因此中心间隔包含质量的。如果我们设置,中心95%的间隔被范围覆盖。
如果分布为,则95%的区间变为。有时可以通过写μ±2σ来近似。
- 2.7 均值和方差
分布最常见的性质是其平均值或期望值,用μ表示。对于离散rv(随机变量),定义为,对于连续rv(随机变量),定义为。如果这个积分不是有限的,平均数就没有定义(我们稍后会看到一些例子)
方差是分布“扩散”的度量,用表示。定义如下: