统计学论文翻译与笔记:《Revisiting Francis Galton’s Forecasting Competition》

文章信息

Statistical Science
2014, Vol. 29, No. 3, 420–424
DOI: 10.1214/14-STS468
© Institute of Mathematical Statistics , 2014
标题:Revisiting Francis Galton’s Forecasting Competition
作者:Kenneth F. Wallis

关键概念

1. Forecast competitions (预测竞赛): 预测竞赛是指参与者或团队进行预测任务并相互竞争准确性的一种活动。其目的是评估和比较不同预测方法或模型的性能。在这类竞赛中,参与者需要对未来事件或数据趋势进行预测,通常会根据预测的准确性进行评分和排名。

2. Two-piece distributions (两部分分布): 两部分分布是一种统计分布,用于描述数据的非对称性。它通常由两个不同的部分组成,每个部分有不同的参数,以捕捉数据分布的不同特性。这种分布可以更好地描述具有偏斜特性的实际数据。

例子:股票收益率分布

假设某个股票的每日收益率通常在0%附近波动,但在某些情况下会出现较大的正收益或负收益。这种收益率分布可能不是对称的:正收益的幅度和频率可能不同于负收益。这时候,我们可以使用两部分分布来建模股票收益率。

假设我们用两部分正态分布来描述这种非对称性:

  • 正收益部分:均值为1%,标准差为2%
  • 负收益部分:均值为-1%,标准差为3%

这种分布能够更准确地捕捉股票收益率的非对称特性,反映了在市场行情好时股票收益率分布的特征以及在市场行情差时的分布特征。

3. Forecast combinations (预测组合): 预测组合是指将多个预测方法或模型的预测结果进行整合,以期获得更准确的预测结果。这种方法基于这样一个概念:不同模型可能在不同方面有优势,通过综合它们的预测可以减少单一模型的偏误和不确定性,从而提高预测的总体准确性。

例子:经济增长预测

多个经济研究机构可能会对未来一年的国内生产总值(GDP)增长率进行预测。假设三个机构A、B和C分别预测GDP增长率为2.5%、3.0%和2.8%。单独使用每个机构的预测可能会受到个体模型的局限性或随机误差的影响。然而,通过预测组合,我们可以计算这些预测的平均值来得到一个更可靠的预测结果。

预测组合公式:(2.5 + 3.0 + 2.8) / 3 = 2.77%

通过这种方式,综合预测可能比单独依赖任何一个机构的预测更为准确,因为它结合了多个预测模型的信息,减少了个体模型的偏差和不确定性。

4. Skewness (偏度): 偏度是描述数据分布非对称性的统计量。它反映了分布的形状是否向某一侧倾斜。正偏度表示分布的右尾较长,即右侧更极端的值更多;负偏度表示分布的左尾较长,即左侧更极端的值更多。偏度可以帮助识别数据的倾斜方向和程度。

5. Kurtosis (峰度): 峰度是描述数据分布集中程度和尾部厚度的统计量。高峰度表示分布具有尖峰和较厚的尾部,意味着数据在平均值附近集中,但极端值出现的频率较高。低峰度则表示分布较平坦,尾部较薄,极端值出现的频率较低。峰度有助于理解数据的离群值特性和极端事件的概率。

6. The wisdom of crowds (群体智慧): 群体智慧是指通过聚合大量个体的判断、意见或预测来获得比单个个体更准确或更可靠的结果。这一概念基于这样一个假设:尽管个体预测可能存在偏差和误差,但通过综合大量个体的预测,这些偏差和误差会相互抵消,从而提高预测的准确性和可靠性。

全文翻译

1.引言:重量评估竞赛

        在1907年3月7日出版的《自然》(Nature)周刊中,著名的人类学家、生物统计学家和统计学家Francis Galton描述了一次在最近的西英格兰肥畜和家禽展览会上进行的重量评估竞赛。在文章中,他写道:“挑选了一头肥牛,参赛者购买了每张6便士的带有盖章和编号的卡片,上面写下了他们各自的姓名、地址和对该牛在屠宰并‘修整’后重量的估计。猜测最成功者获得奖品。” 根据其传记作者卡尔·皮尔逊(Karl Pearson)所报道的他一生的座右铭“只要有可能,就要计数”(Pearson, 1924, 第340页),Galton能够借到所有参赛卡片一段时间。在研究这些参赛卡片时,他发现“这些提供了极好的材料。判断没有受到情感的影响……六便士的费用阻止了恶作剧,而奖品的希望和竞赛的乐趣促使每个参赛者尽力而为。参赛者包括屠夫和农民,其中一些人非常擅长判断牲畜的重量。”

        在剔除13张有缺陷或无法辨认的卡片后,有787张参赛卡片可供分析。Galton首先按估计值排序,将重量从英担、夸脱和磅转换为磅。他然后挑选出5%、10%、15%、……、95%的百分位数,并在他的文章中作为“估计分布”进行了列出,采用了他多年来发展的“百分位数法”。他偏爱的集中趋势度量是中位数,尽管在早期他引入了这个术语,但在本文中他保留了以前的术语:“根据‘一人一票’的民主原则,中间值表达了民众的声音,其他每个估计都被大多数投票者视为太低或太高。”他报告说:“中间值是1207磅,而修整后的牛重为1198磅;因此,民众的声音在这个案例中高出了9磅,占总重量的0.8%。”Galton总结道:“我认为,这个结果比预期的更能证明民主判断的可靠性。”

        这种竞赛提供了一个早期的预测竞赛例子,这种竞赛在预测文献中已经变得熟悉。在本文中,我们再次审视了Galton的数据,并展示了他的文章尽管有一些不准确之处,但它是统计预测文献中两个最新发展的有趣前驱。这篇文章也吸引了公共选择文献的关注;例如,Levy和Peart(2002)重现了原始文章(Galton, 1907b),并附上了一周前发表的《自然》编辑部的一封信,论证了中位数的民主原则(Galton, 1907a)。此外,更为大众化的是,苏洛威茨基(Surowiecki)的《群体智慧》(2004)一书开篇即讲述了这次重量评估竞赛,从而将其引起了更广泛的关注。

2. 访问档案:一些差异

        Galton的工作论文、笔记、一些通信和他手写的文章草稿存放在伦敦大学学院的Galton档案馆。对这些材料的研究揭示了一些对后续分析和解释有影响的小错误。Galton于1907年2月16日年满85岁,可能急于吸引“立即关注”,正如Pearson所观察的那样,《自然》杂志提供了“一种快捷的沟通手段”(Pearson, 1924, 第400页)。

        在上述结果的总结声明中出现的所有三个数字中都有小错误,尽管它们在算术上是一致的。首先,关于中位数,在787个观测值中,这是排在第394位的估计值,为1208磅。其次,结果,即修整后牛的重量,是竞赛组织者在信中报告的,重量为10英担,2夸脱和21磅,即1197磅,这个数字出现在Galton的工作表中,相当于排名列表中的第353个条目,如图1所示。因此,中间值估计的真实误差为11磅。Galton在1907年2月4日写给他的侄子Edward Wheler Galton的信中专门用了一个段落来讨论这个问题。他说他“刚刚在处理一些可能会引起你兴趣的统计数据”,并在简要介绍重量评估数据后总结说“平均误差为11磅”(Pearson, 1930, 第581页)。

        图1

        然而,Galton的手写文章草稿将结果呈现如下:“修整后的牛重为1198磅。估计值分布在其中间值1208磅附近,因此民众的声音在这个案例中高出了11磅,或约占总重量的1%。”这里的算术不一致,因为结果被错误地转录了。但在试图修正时,应该将1198改为1197,这样差异就是11磅,而不是草稿中正确指出的11磅,但在发表的版本中,将1208改为1207,相应的误差被报告为9磅。在试图修正时,错误的四位数的最后一位8被改为7。尚不清楚这个错误是在工作过程中的哪个阶段发生的,因为错误的中位数也出现在发表的估计分布表中,尽管第一个和第三个四分位数是正确的。对于787个观测值,这些四分位数无需插值,分别是排名列表中的第197个和第591个观测值,分别等于1162和1236。

        Galton似乎没有意识到他的文章中呈现的结果是不准确的,因为它们在他的《我生平的回忆录》(1908)中再次出现。他在书中简要介绍了他对畜牧展览的访问以及随后的研究(第280-281页);这篇文章提到了他在《自然》杂志上发表的“论文”,并重复了错误的数字,分别是1207磅和1198磅。

3. 预测组合

        自Bates和Granger(1969)的开创性文章发表以来,将不同的同一事件预测组合起来可能会有价值的想法已广为接受,比Galton的《民众之声》晚了大约六十年。随后出现了大量文献,主要涉及随机变量未来实现的点预测,尽管一组竞争预测的中位数有时是一个有趣的组合预测,但简单的平均值和各种加权平均值更为常见,因为统计预测文献主要建立在最小二乘原则之上。

        在Galton的文章发表两周后,《自然》杂志编辑部发表的一封信讨论了中位数和平均数之间的选择。通讯员Hooker(1907)希望Galton也能报告787个观测值的算术平均值。他说“我没有实际数据,但根据Galton先生文章中的数据,平均值大约是1196磅,比中位数(1207磅)更接近已知重量(1198磅)”:他计算了Galton表中百分位数的平均值。在一周后的回复中,Galton(1907c)报告了所有数据的正确平均值为1197磅,这对他来说表明“百分位数表的紧凑性不妨碍其广泛使用。”他没有提到这一事实,即这比中位数更接近真实值,正如Hooker所观察到的。实际上,使用正确的结果值,平均估计误差为零。如果Bates和Granger(1969)知道这个早期的预测组合收益例子,他们很可能会引用它。

        Surowiecki关注的是Galton回复中报告的这个平均估计值,认为其代表了“普利茅斯人群的集体智慧”(Surowiecki, 2004, 第xiii页)。他将其与已公布的1198磅结果进行比较,并得出结论:“人群的判断基本上是完美的。”如果他知道真实结果,他对群体智慧的结论无疑会表达得更强烈。

        在这一单次实验中,不可能使用计算权重来构建替代的组合预测。预测组合文献中考虑的其他可能性包括修剪均值:在这种情况下,对样本进行对称修剪只会将估计值从1197的平均值移动到中位数,这是修剪均值的极端例子,并增加误差。

4. 两部分分布

        Galton讨论了单个预测的修整重量分布的离散性和形状,并参考了正态分布。作为扩散度量,他使用了“可能误差”,这是一个古老的术语,表示四分位差的一半:在对称分布的中心,获得一个值在一个可能误差范围内的概率为0.5。对于正态变量,可能误差等于0.6745乘以标准差,因此,Galton的可能误差为(1236-1162)/2=37,相当于标准差54.9。为了将经验分布与均值(即中位数)为1207和可能误差37的正态分布进行比较,他绘制了每个分布的百分位数与相应百分比(5, 10, ...,95)对比的图表,他的“正态分布曲线”现在被称为反累积分布函数。图表显示正态分布并未充分延伸到经验分布的尾部。对现代人来说,这在将Galton的正态分布概率密度函数(PDF)与样本直方图进行比较时更为明显。

        在对Galton统计调查的扩展回顾中,Pearson(1924)第13章重新审视了这组数据。关于Galton的方法,他观察到(第400页)“Galton频繁使用中位数和四分位数……我认为,这归因于他对简明分析的极大喜爱。他发现算术本身是令人厌烦的”;对于当前的练习,他指出(第404页)“百分位数法的制表方法不允许非常容易地确定均值和标准差,从而获得最佳正态分布”,换句话说,通过他的矩方法拟合的分布!他发现,“经过一些努力:均值1197,标准差61.895,……这些比Galton的中位数和四分位数值提供了更好的拟合。”Pearson似乎忽略了Galton(1907c)给出的均值。图2显示,他所说的“更好的拟合”在分布中心之外是真的,但在峰值附近却不太真实。

  图2

        正如Galton观察到的,一个主要问题是预测分布是不对称的,低估结果的程度更大。他的最终建议是,分布的下半部分可能与可能误差为45的正态分布很好地吻合,上半部分与可能误差为29的正态分布吻合。他在之前的场合提出了类似的建议(Galton, 1896),但立即有人指出,将两个半正态分布放在一起会在连接点处产生不连续性(Yule, 1896)。两部分正态分布,由Fechner(1897)引入,后来被多次重新发现(Wallis, 2014),适当地调整了每个半正态分布的比例,并在模式处连续。该分布已广泛用于表示密度预测中的不对称风险。

        然而,第二个主要问题是样本分布是尖峰的,即比正态分布有更高的峰值和更胖的尾巴:传统的β2峰度测量值为6.01。分布中缺乏“肩部”解释了为何基于四分位差的标准差估计值比Pearson的二阶矩估计值要小。在两部分正态分布中,β2值在3到3.87之间,但这种表观峰度仅仅是其不对称性的结果,每个半正态分布被重新缩放而非重新塑形。于是,注意力转向更尖峰分布的两部分版本,例如具有相对较小自由度的Student-t分布。然而,以这种方式引入偏度主要适应分布中心部分的偏度,而不允许分布的两个尾部分别具有不同的衰减率。因此,Zhu和Galbraith(2010)开发了一类广义不对称Student-t(AST)分布,它具有一个偏度参数和两个尾部参数,提供了在尾部区域更好的拟合可能性。

        通过最大似然法拟合Galton数据的AST分布(CDF)得到的结果(作为PDF)如图3所示。可以看出,数据的主要特征由这种五参数形式很好地表示,相对于图2所示的两参数形式。基于Akaike信息准则的模型选择表明,五参数形式相对于任何受限版本的分布具有明显的优越性。分布下半部分和上半部分的两个“自由度”参数估计值分别为4.97和2.73。Arnold和Groeneveld(1995)的偏度测量值等于PDF在模式以上和以下的面积差,为-0.32。希望这个成功的例子能鼓励AST分布在金融计量经济学之外的其他领域中进一步应用。

5. 后记

        这一对Galton错误的描述不应被视为对他作为现代统计学发展中重要人物地位的贬低。Stigler(1986)第8章评估了他的贡献,称他为“统计学史上的浪漫人物,也许是最后一位绅士科学家。” 最近(Stigler, 2010),他将他所称的统计启蒙半个世纪的开端定为Galton在1885年英国科学促进会会议上的演讲。然而,到1907年,Galton的主要成就已成过去,他对重量评估数据的分析是他发表的最后一篇统计工作。他当时85岁,身体状况不佳,这也是他出现在西英格兰的原因。他在1906年10月写给侄子的信中解释说:“11月的伦敦会帮助或完全杀死我”,尽管他习惯于在南欧过冬,但“我现在恐惧出国旅行”(Pearson, 1930,第579页)。然而,他并没有失去他的智力能力,一旦在普利茅斯,他无法抵抗这些数据给他提供的机会。Galton于1911年1月17日去世,葬于离沃里克不远的克拉弗登。

致谢

        感谢Gianna Boero, John Galbraith, Federico Lampis, Jeremy Smith, 两位审稿人以及伦敦大学学院的特别收藏图书馆员。注意:Galton和Pearson项目的传真件可在这里找到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值