相信很多人都或多或少的听过贝叶斯定理,但它到底怎么用?又怎么学?许多的书都无法讲清楚。但《趣学贝叶斯统计》却独辟蹊径,用一个个趣味十足、脑洞大开的例子,将贝叶斯统计的原理和用途娓娓道来。
在书中你可以评估UFO出现在自家后院中的可能性、《星球大战》中汉•索罗穿越小行星带幸存下来的可能性、抓鸭子中大奖游戏的公平性,并学会用乐高积木理解贝叶斯定理。
简直是最好的贝叶斯入门书!今天我们就用书中的一个“估计降雪量”的案例俩讲解参数估计中的均值法。
来源 | 《趣学贝叶斯统计:橡皮鸭、乐高和星球大战中的统计学》
作者 | [美] 威尔·库尔特(Will Kurt)
译者 | 王凌云
本文将介绍参数估计,这是统计推理的重要内容。所谓参数估计,就是通过已知的数据来推测未知变量的值。例如,估算网站的访问者购买商品的概率,嘉年华上罐子里软糖的数量,或者粒子的位置和动量。在所有这些例子中,都有我们想要预估的未知值,我们可以利用观察到的信息进行猜测。我们将这些未知值称为参数(parameter),对这些参数进行合理推测的过程则被称为参数估计(parameter estimation)。
我们将重点讨论均值法(averaging),这是参数估计最基本的形式。几乎每个人都明白,对一组观测值取均值是估计真实值的最佳方法,但很少有人会停下来思考为什么这样做有用(假设这样做的确有用的话)。我们需要证明均值法值得信赖,我们将利用它构建更复杂的参数估计形式。
1
估计降雪量
假设昨天晚上下了一场大雪,你想知道院子里到底积了多少雪(以英寸为单位)。不幸的是,你家里并没有雪量计,不能给出准确的测量结果。往外看,你发现风已经吹了一夜,这意味着院子里各处的雪深并不相同。你用尺子在院子的7个随机位置测量雪的深度,得到了以下测量数据(以英寸为单位):
很明显雪被风吹动了不少,院子里的雪也不太平整,所以量出的深度很不一样。既然如此,我们如何利用这些测量值来推测实际降雪量呢?
这个简单的问题是参数估计的一个很好的例子。我们要估计的参数是昨晚降雪的实际深度。请注意,由于风把雪吹得到处都是,而又没有雪量计,因此我们永远无法知道确切的降雪量。我们有的只是一组测量数据。结合概率来使用这组数据,就可以确定每个测量值对估算值的分摊值,从而做出最好的推测。
1 求平均测量值以最小化误差
你的第一反应可能是求这些测量值的均值。在小学,我们通过把各个数值加起来,再除以数值的个数来求均值。因此,如果有 个测量值,其中第 个测量值标记为 ,那么均值为:
均值
代入前面的数据,可以得到下面的结果:
根据所得的7个测量值,最好的估计是大约下了6.31英寸深的雪。
均值法是一种从小就嵌入我们脑海的方法,所以它应用在这个问题上似乎是必然的,但实际上,很难分析它为什么有效以及它与概率有什么关系。毕竟,我们的每一个测量值都是不同的,而且所有的测量值都可能与真实的降雪量不同。数百年来,即使是伟大的数学家也担心平均数据会让这些有误差的测量结果变得复杂,使得估计的结果非常不准确。
在估计参数时,重要的是理解为什么要做出决定;否则,我们使用的估计方法可能会造成风险,比如在无意中造成偏差或其他系统性错误。统计学中的一个常见错误是,在不了解情况的时候就盲目应用解决步骤。这导致的结果常常是,用了错误的方法来解决问题。概率是对不确定性进行推理的工具,而参数估计则是用来处理不确定性最常见的过程。下面来深入了解均值法,看看我们能否更加确信它是正确的方法。
2 解决简化版的案例
让我们将降雪问题简化一下:与其想象所有可能的降雪深度,不如想象雪落在平整、均匀的地面上,这样你的院子就变成了一个简单的二维网格。图10-1显示了完全均匀、6英寸深的降雪侧视图(不是鸟瞰图)。
图10-1 一场完全均匀的降雪
这是一个完美的场景:没有无限的可能测量值;相反,我们对7个位置全部进行采样,每个位置只有一个可能的测量值——6英寸。显然,均值法在这种情况下是有效的,因为无论怎样从这些数据中取样,答案总是6英寸。
将它与图10-2进行比较。图10-2显示了当风将雪吹到你家房子左边时的情景。
图10-2 被风吹动后的雪
现在,雪的表面不再是平整、均匀的,这就为原来的问题引入了一些不确定性。当然,这里取巧了,因为很容易计算出每块地上的雪量,从而确切地知道下了多少雪。但通过这个例子,我们可以探索如何对不确定的情况进行推理。让我们通过测量院子里每块地上的雪开启整个探索过程:
接下来,我们会将每个值与概率联系起来。既然取巧了而且知道降雪量的真实值是6英寸,那么我们会记录测量值和真实值之间的差异,即误差值(见表10-1)。
观察每个测量值与真实值的差,我们可以看到,某个值高估的概率与另一个值低估的概率相抵消了。例如,选择比真实值高2英寸的测量值的概率为 ,选择比真实值低2英寸的测量值的概率为 。这使我们对平均值的工作原理有了第一个关键的认识:测量中的误差往往会相互抵消。
3 解决更极端的案例
由于误差的分布如此均匀,因此前面的场景可能还不足以让你相信在更复杂的情况下误差仍然会相互抵消。为了证明这种效应在其他情况下仍然存在,让我们来看一个更极端的例子。假设风把21英寸的雪吹到了6个方块中的一块上,其余的方块都剩下了3英寸的雪,如图10-3所示。
图10-3 风吹动雪的极端情况
现在我们有了一个非常不同的降雪分布。首先,与前面的示例不同,我们取样的数值中没有一个是真实的降雪量。其次,误差的分布也不再平均:有多个低于预期的测量值和一个非常高的测量值。表10-2显示了测量值、与真实值的差,以及每个测量值的概率。
显然,不能仅仅将一个测量值的误差和另一个的误差进行匹配,然后让它们相互抵消。不过,可以用概率证明,即使是这种极端的分布,误差仍然会相互抵消。我们可以通过将每个有误差的测量值视为对数据的投票来实现这一点。每个误差被察觉的概率就是我们对它的相信程度。当合并测量值时,可以将测量值的概率视为代表其对最终估计值的投票相信程度。在这个例子中,-3英寸误差的可能性是15英寸误差的5倍,所以-3得到的权重也更大。如果进行投票,-3会得到5票,而15只会得到1票。将所有的票数结合起来,用值乘以它的概率,然后将它们加在一起,就能够得到一个加权和(weighted sum)。在极端的情况下,即所有的值都是一样的时候,只需要让1乘以观察到的值,结果就会是一个加权和。在这个例子中,加权和是:
每个测量值的误差都抵消了,结果为0!所以,我们再次发现,如果没有一个测量值是真实值,或者如果误差的分布不均匀,这都不重要。当根据信念对该测量值进行加权时,误差往往会相互抵消。
4 用加权概率估计真实值
现在我们相当有信心,实际测量的误差会被抵消,但仍然有一个问题:我们一直在处理实际测量的误差,但处理这些需要知道真实值。在不知道真实值时,我们能处理的就只有测量值,所以需要看看,当只有原始测量值的加权和时,误差是否仍然抵消。
为了证明方法有效,我们需要一些“未知”的真实值。让我们从以下误差开始:
由于真实值未知,我们用变量 表示它,然后加上误差就能得到测量值。现在可以根据概率对每个测量值进行加权:
这里所做的就是把误差与代表真实值的 相加,然后将每个结果按其概率加权。这样做是为了看看误差是否仍然可以抵消,最终只留下 。如果只留下了 ,那么只对原始测量值进行平均,误差也会抵消。
下一步则是将概率权重与测量值的每一项相乘,得到一串长长的加权和:
现在如果重新排列这些项,将所有的误差都放在一起,我们就可以看到误差仍然会被抵消,加权后的值相加仍然等于 ,即未知的真实值:
这表明,即使将测量值定义为“未知的真实值 加上误差”,误差仍然会抵消,最后只剩下 。即使不知道真实值或真实误差是多少,在计算测量值的均值时,误差往往也会抵消。
在实践中,通常无法对整个可能的测量空间进行采样,但拥有的样本越多,误差抵消的程度就越高,总体上,我们所得的估计值也会越接近真实值。
4 定义期望、均值和平均数
这里所得到的估计值,通常正式称为数据的期望(expectation)或均值(mean),它是每个值经过概率加权后的和。如果用 来表示每个测量值,用 来表示相应的概率,在数学上给均值的定义如下,其中均值通常用 (希腊字母mu的小写)来表示:
需要说明的是,这与我们在小学学习的计算均值的方法完全相同,只是使用了让概率的作用更加明确的符号。来看一个例子,求4个数的均值。在学校里,我们会将它写为:
这等同于下面的写法:
还可以令 ,写成下面这样:
因此,尽管均值实际上就是几乎人人都熟悉的平均数,但通过概率的原理来构建它,我们明白了它为什么能起作用。无论误差如何分布,一个极端误差的概率都会被另一个极端误差的概率抵消。随着获得的样本越来越多,平均数的误差就越可能被抵消,我们也就越接近一直在努力寻找的真实值。
2
测量中的均值与总结性的均值
我们一直通过均值从带有误差的测量值分布中去估计真实值,但均值也经常用于总结一组数据。例如,我们可能会提到下面这些数据:
人的平均身高;
房子的平均价格;
学生的平均年龄。
在所有这些例子中,我们并没有将均值用作估计单一真实值的参数;相反,我们是在总结一个群体的属性。准确地说,我们是在估计一个群体的某些抽象属性,而这些属性甚至可能不是真实的。即使均值是一个众所周知的简单参数,它也很容易被滥用并导致奇怪的结果。
在对数据进行平均处理时,我们应该常常问自己一个基本的问题,那就是:“我到底想测量什么,这个值又意味着什么?”以降雪这个例子来说,答案很简单:我们想估算昨晚在被风吹动之前,到底下了多少雪。然而,当测量“平均身高”时,答案就不是那么清楚了。世界上根本就不存在一个“平均人”,我们观察到的身高差异并不是误差,而是真实存在的差异。更不存在一个人之所以是5英尺5英寸高,是因为他的部分身高移到了另一个6英尺3英寸高的人身上。
如果你在建造一所游乐园,想知道对玩过山车设定什么样的身高限制,才能有至少一半的游客可以乘坐它,这时就出现了你想度量的真实值。但是在这个例子中,均值就变得不那么有用了。更好的方法是估算进入游乐园的人身高超过 的概率,这里的 是乘坐过山车的最低身高。
本文提出的所有观点都是有前提的,即我们讨论的是如何测量一个特定的值并通过均值来抵消误差。也就是说,我们把均值当作参数估计的一种方法,其中的参数有着我们无法确切知道的真实值。虽然均值对总结大量数据也很有用,但我们不能再对这里的均值有“抵消误差”的错觉,因为此时数据中的变化是真正有意义的变化,而不是测量的误差。
推荐阅读
《趣学贝叶斯统计:橡皮鸭、乐高和星球大战中的统计学》
作者:[美] 威尔·库尔特(Will Kurt)
译者:王凌云
本书用十余个趣味十足、脑洞大开的例子,将贝叶斯统计的原理和用途娓娓道来。你将从直觉出发,自然而然地习得数学思维。读完本书,你会发现自己开始从概率角度思考每一个问题,并能坦然面对不确定性,做出更好的决策。
02
《贝叶斯的博弈:数学、思维与人工智能》
作者:黄黎原
译者:方弦
法国数学类科普书、大学数学参考及教材类图书畅销书目,在机器学习、人工智能、逻辑学和哲学等众多领域中,探索贝叶斯定理蕴藏的智慧与哲理。
贝叶斯定理一旦与算法相结合,就不再是一套枯燥的数学理论或认识论,而变成了应用广泛的知识宝库,催生了众多现代数学定理,以及令人称道的实践成果。
03
《谁在掷骰子?不确定的数学》
作者:[英] 伊恩•斯图尔特
译者:何生
几个世纪以来,在好奇心以及精确预测未来的“野心”驱动下,具有开拓意识的数学家希望从概率论和统计学着手,减少各种“不确定性”。但他们发现,某些问题始终难以解决,而直觉也在不断误导人类。
本书探讨了关于“不确定性”的有趣故事和相关科学知识。知名科普作家伊恩·斯图尔特巧妙地建立起一个易于理解、充满想象力的数学框架,从概率论、统计学、贝叶斯方法、混沌理论等角度展现了“不确定性”在金融市场、天气预报、人口普查、医学、量子物理学和宇宙学等诸多领域中的重要作用,展望了与不确定性问题紧密相关的科学门类的广阔研究前景。
04
《贝叶斯数据分析(第2版)》
作者:约翰·K. 克鲁施克(John K. Kruschke)
译者:王芳
1.美国加州大学伯克利分校博士,特罗兰研究奖获得者,美国印第安纳大学心理学和脑科学名誉教授、统计学副教授约翰·K. 克鲁施克,拥有近25年的统计学教学经验总结!
2.极佳的贝叶斯统计入门书籍!如果你认为统计学很难,或许是因为你在入门时错过了本书。
3.原著豆瓣高达9.4分!全面覆盖实用的贝叶斯统计知识,可读性强!