拉普拉斯, 高斯, 高尔顿, 皮尔逊, 戈塞特, 费歇尔对统计学的发展贡献

由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原始社会,也就是说距今足有五千多年的漫长岁月。但是,能使人类的统计实践 上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百余年的短暂历史。统计学发展的概貌,大致可划分为古典记 录统计学、近代描述统计学和现代推断统计学三种形态。

统计学作为一门学科已有三百多年的历史。按统计方法及历史的演变顺序,通常可以将统计学的发展史分为三个阶段,分别是古典统计学时期、近代统计学时期和现代统计学时期。古典统计学的萌芽最早可以追溯到17世纪中叶,此时的欧洲正处于封建社会解体和资本主义兴起的阶段,工业、手工业快速增长,社会经历着重大变革。政治改革家们急需辅助国家经营和管理的数据证据以适应经济发展需要,此时一系列统计学的奠基工作在欧洲各国相继展开。在这一时期,以威廉.配第约翰.格朗特为代表的政治算术学派与海尔曼。康令(HermannConring)创立的国势学派相互渗透和借鉴,服务与指导了国家管理和社会福利改善。

18世纪末至19世纪末为近代统计学发展时期。这一百年间欧洲各国先后完成了工业革命,科学技术开始进入全面繁荣时期,天文、气象、社会人口等领域的数据资料达到一定规模的积累,对统计的需求已从国家层面扩展至社会科学各个领域。对事物现象静态性的描述也已不能满足社会需求,数理统计学派创始人凯特勒(A·J·Quetelet)率先将概率论引进古典统计学,提出了大数定律思想,使统计学逐步成为揭示事物内在规律,可用于任何科学的一般性研究方法。一些重要的统计概念也在这一时期提出,误差测定、正态分布曲线、最小二乘法、大数定律等理论方法的大量运用为社会、经济、人口、法律等领域的研究提供了大量宝贵的指导。

20世纪科学技术的发展速度远超过之前的时代,以描述性方法为核心的近代统计已无法满足需求,统计学的重心转为推断性统计,进入了现代统计学阶段。随着20世纪初细胞学的发展,农业育种工作全面展开。1923年,英国著名统计学家费雪(R.A.Fisher)为满足作物育种的研究需求,提出了基于概率论和数理统计的随机试验设计技术以及方差分析等一系列推断统计理论和方法。推断性统计方法的进步对工农业生产和科学研究起到了极大的促进作用。自20世纪30年代,随着社会经济的发展和医学先进理念的吸收融合,人们对于医疗保险和健康管理的需求日益增长,统计思想渗透到医学领域形成了现代医学统计方法[8]。例如在生存质量(Quality of life)研究领域,通过分析横向纵向资料,逐步形成了重复测量资料的方差分析、质量调整生存年(QALYs)法等统计方法[9]。这一阶段,统计在毒理学、分子生物学、临床试验等生物医学领域获得了大量应用,这些领域的发展又带动统计方法不断创新,主成分估计、非参数估计、MME算法等方法应运而生。随着现代生物医学的发展,计算机技术的进步,人类对健康的管理和疾病的治疗已进入基因领域,对基因数据分析产生了大量需求。高维海量的基因数据具有全新的数据特征,由此一系列面向高维数据的统计分析方法相继产生。

自上个世纪以来计算机经历了飞跃式发展,计算机技术催生了大数据,并支撑了它的处理与分析。计算机技术可以说是大数据发展的基础。大数据时代对统计学发展的探讨自然离不开对计算机科学的关注。大数据的价值产生于分析过程,作为大数据分析的主要工具与方法,统计学与计算机技术共同成为服务于大数据的核心科学。两者关系密切,它们之间存在着合作与竞争并存的关系。

计算机为统计学的发展起到了极大的促进作用。计算机使人类所拥有的数据水平达到了全新的高度,无论是从数量,类型,还是粒度等方面进行考察。新型的数据或者数据特征催生出新的数据处理方法,例如社交网络的发展直接要求了基于网络的统计方法的产生;大数据流环境对数据流算法的要求等。计算机技术也融进统计方法中,促进了新的统计方法的诞生。自20世纪计算机兴起,一系列建立在计算机基础之上的统计方法就被开发出来:MCMC模拟计算、Jackknife、Bootstrap等。此类方法不仅拓展了统计学领域,而且开创了解决问题的新思路。进入大数据时代,以互联网为中心的云计算技术为大数据提供了保管、访问的场所和渠道。伴随着分布式和并行计算(云计算核心技术)的快速发展,Bag of LittleBootstraps算法(2012)、Memory-Efficient Tucker Decomposition(2008)、基于MapReduce的K-means算法(2009)、基于MapReduce的并行Apriori算法(2012)等一系列面向大数据的抽样、分类、聚类、关联分析方法应运而生。[10,11,12]

在数据统计分析方法蓬勃发展的同时,以数据库技术为关键支撑的计算机信息处理技术在很多领域上也得到大量发展。例如,在数据获取方面,DEEP WEB技术可以用于感知数据,以及进行高质量的数据继承和整合;在数据存储方面,谷歌、IBM和百度等公司大量运用的GFS技术,能够实现高效率的分布式数据存储,并且可以给大量用户提供总体性能较高的服务;在数据索引方面,当前比较主流的索引技术之一是BigTable,它是一个分布式的、可扩展的、高效的非关系型数据库;在可视化方面,Clustergram技术可以进行聚类,从而优化大数据分析结果的形式[13]。大数据时代,统计学与计算机互相促进,存在着紧密合作关系。

另一方面,由于统计学的发展是以实际需求为驱动,如果要解决的问题随着计算机的发展可以得到很好的解决,那么相应的统计方法可能就埋没在浩瀚的历史长河里了。比如在大数据时代,出现了超高维数据,LASSO、SCAD等方法在处理超高维数据下计算效率远远不够[14]。对于超高维数据,Fan和Lv[15]提出的SIS(SureIndependence Screening)方法可以快速有效地把维数从超高维降到相对小的规模。这是一种基于相关准则的降维方法,相关准则把特征重要性按照它们与因变量的边际相关来排序,并把与因变量的边际相关弱的那些变量过滤掉。这种统计方法可以有效地降低计算成本,然而当计算机的速度和性能得到很大提升后,它的价值却在减小。基于分布式系统的大规模数据软件平台Hadoop,通过并行处理可以成倍地提高计算机性能,作为显卡核心的图形处理器GPU拥有一个专为同时处理多重任务而设计的由数以千计小而高效的核心组成的大规模并行计算架构,经过并行计算的优化,理论上在GPU上的计算速度会比CPU快50-100倍[16],不借助SIS方法的“GPU+Hadoop”就可以直接处理超高维数据。部分统计学方法有可能淹没在计算机技术的发展洪流中。从学科的发展角度来看,统计学与计算机技术也存在一定的竞争关系。

与计算机的竞争关系揭示出统计学所面临的被替代的危机,而面对这个危机最好的态度是积极地拥抱计算机技术,让计算机技术融入统计学。在大数据时代,统计学应该与计算机技术更加紧密地结合。

高维海量的大数据,同时具有多样性,高速性等特点,实际应用和数据驱动着统计学向前发展。在大数据时代,计算机和统计的结合成为分析和研究大数据的基础。大数据时代,统计学者应该积极拥抱计算机技术,需要更全面地了解计算机相关知识。虽然对大数据的数据分析理念,思维变革等都已展开了很多研究与讨论,但是大数据时代的帷幕才刚刚被揭开,人们对新事物的认识总是需要一个过程。对一些问题的误解可能会对统计学的发展造成重大损失,例如相关分析比因果分析更重要,大数据时代不需要抽样了,大数据时代数据质量真的不重要了。作为统计学者不能人云亦云,对当前存在的一些认识误区应及时指出并纠正。另外,大数据时代,还有很多问题需要经过反复的讨论以及时间的检验,比如大数据时代经典统计方法该如何发展?多源异构大数据如何整合分析?大数据是否真的就越大越好?以上所讨论的问题是关于统计发展方向的几个比较重要的问题,值得统计学者继续研究。

一、古典记录统计学

    古典记录统计学形成期间大致在十七世纪中叶至十九世纪中叶。统计学在这个兴起阶段,还是一门意义和范围不太明确的学问,在它用文字或数字如实记录与分析国 家社会经济状况的过程中,初步建立了统计研究的方法和规则。到概率论被引进之后,才逐渐成为一项较成熟的方法。最初卓有成效地把古典概率论引进统计学的是 法国天文学家、数学家、统计学家拉普拉斯。因此,后来比利时统计学家、数学家和天文学家凯特勒指出,统计学应从拉普拉斯开始。(凯特 勒:Lambert Adolphe Jacques Quetelet,1796~1874,他被统计学界称为“近代统计学之父”、“国际统计会议之 父”。他一生著作颇丰,其中有关统计学方面的就有65种之多。1851年积极筹备国际统计学会组织,并任第一届国际统计会议主席。在此之后,先后被选为欧 洲各国科学院的院士。他的最大贡献是将统计方法(作为一名物理科学家和数学家,他是精于此道的)用于研究人类。他记录了苏格兰士兵的胸围,法国军队应征入 伍者的身高,以及其它诸如此类的项目,并发现这些数字与平均值偏离的变化方式与掷骰子或弹在靶心周围散布的方式相同。1835年他第一次记下了这一点。后 来,他将1846年比利时人口普查的数字用于他的统计分析。在这样做的过程中,他研究出来的许多法则,仍是现代人口统计工作的依据。他将结果制成图,画出 各种测量值出现的频率,得到一条钟铃状的曲线。(由于高斯经常使用这类曲线,所以人们常称这为高斯曲线。)于是,随机性闯入了人类王国。这又一次表明,支 配着无生命宇宙的一些法则,也同样为生命(特别是包括人类在内)所遵守。从凯特勒的工作引出了“平均人”的概念。“人口统计”的思想也是由他的工作形成 的,后者则决定了保险金额的大小。)

(一)拉普拉斯的主要贡献

   1、发展了概率论的研究拉普拉斯第一种关于概率论的表述发表于1774年。从 1812年起,先后出过四版《概率的解析理论》,是他的代表作。书中,拉普拉斯最早系统地把数学分析方法运用到概率论研究中去,建立了严密的概率数学理 论。该书不仅总结了他自己过去的研究,而且还总结了前一代学者研究概率论的成果,成为古典概率论的集大成者。
   2、推广了概率论在统计中的应用由于拉普拉斯是通过结合天文学、物理学的研究来从事概率研究的,所以,他能相当自觉、相当明确地指出:概率论能在广 泛范围中应用,能解决一系列的实际问题。他在实际推广中的成绩是多方面的,主要表现在人口统计、观察误差理论和概率论对于天文问题的应用。 1809~1812年,他结合概率分布模型和中心极限思想来研究最小二乘法,首次为统计学中这项后来最常用的手段奠定了理论基础。
   3、明确了统计学的大数法则拉普拉斯认为:“由于现象发生的原因,是为我们所不知或知道了也因为原因繁复而不能计算;发生原因又往往受偶然因素或无 一定规律性因素所扰乱,以至事物发展发生的变化,只有进行长期大量观察,才能求得发展的真实规律。概率论则能研究此项发展改变原因所起作用的成份,并可指 明成份多少。”这是他通过天文学上的研究后所得的体会。他发现在观察天体运动现象中,当次数足够多时,能使个体的特征趋于消失,而呈现出某种同一现象。他 指出这其中一定存在着某些原因,而非出于偶然。
   4、进行了大样本推断的尝试在统计发展史上,人口的推算问题,多少年来成为统计学家耿耿于怀的难题。直到十九世纪初,拉普拉斯才用概率论的原理迈出 了关键的一步。在理论上,1781年拉普拉斯在“论概率”(Laplace,PS (1781). Mémoire sur les probabilités. Mém. Acad. R. Sci. Paris, pp.227-332 (1778). OC 9, 383-485.)一文中,建立了概率积分,为计算区间误差提供了有力手段。1781~1786年提出“拉普拉斯定理”(中心极限定理的一部分),初步建 立了大样本推断的理论基础。在实践上,拉普拉斯于1786年写了一篇关于巴黎人口的出生、婚姻、死亡的文章,文中提出根据法国特定地方的出生率来推算全国 人口的问题。他抽选了30个市县,进行深入调查,推算出全国总人口数。尽管其方法和结果还相当粗糙,但在统计发展史上,他利用样本来推断总体的思想方法, 为后人开创了一条抽样调查的新路子。
另一位对概率论与统计学的结合研究上作出贡献的是德国大数学家高斯(Carl FriedrichGauss, 1777~1855)。

(二)高斯的主要贡献

    1、建立最小二乘法在学生时代,高斯就开始了最小二乘法的研究。1794年,他读了数学家兰伯特(J.H. Lambert,1728~1777)的作品,讨论如何运用平均数法,从观察值(Yi ,xi)中确定线性关系Y=α+βx中的二个系数。1795年,设想了以残差平方和Σ(Yi -a-bxi )2为最小的情况下,求得的ab来估计α与β。1798年完成最小二乘法的整个思考结构,正式发表于1809年。
   2、发现高斯分布调查、观察或测量中的误差,不仅是不可避免的,而且一般是无法把握的。高斯以他丰富的天文观察和在1821~1825年间土地测量的经验,发现观察值x与 真正值μ的误差变异,大量服从现代人们最熟悉的正态分布。他运用极大似然法及其他数学知识,推导出测量误差的概率分布公式。“误差分布曲线”这个术语就是 高斯提出来的,后人为了纪念他,称这分布曲线为高斯分布曲线,也就是今天的正态分布曲线。高斯所发现的一般误差概率分布曲线以及据此来测定天文观察误差的 方法,不仅在理论上,而且在应用上都有极重要的意义。
   正态分布又称高斯分布。德国的10马克纸币, 以高斯为人像, 人像左侧有一正态分布的密度表达式及其图形。高斯在数学上有诸多贡献, 但在10马克的纸币, 挑出来与他相随的, 是正态分布。可见正态分布不只在统计上, 在数学上亦很重要。不过高斯倒不是第一位提出此分布的人。法国数学家德莫佛(De Moivre, 1667-1754)早于他给出此分布。甚至一般认为丹尼尔﹒伯努利(Daniel Bernoulli, 1700-1782)更早就发现了。有人称这种现象为误称定律(Law of Misnomer)。要知数学上的命名, 往往并非以实际发现者。
    正态分布之所以重要, 原因很多, 我们给出三个主要的原因:首先是正态分布在分析上较易处理。其次是正态分布的密度函数的图形为钟形曲线(bell-shaped curve), 再加上对称性, 使得很适合当作不少总体的机率模式。当然下面我们会看到钟形且具对称的分布也有不少, 但通常不像正态分布, 在分析上如此容易驾驭。第三个原因是由于在中心极限定理(Central Limit Theorem), 使得在不太强的条件下, 正态分布可当做不少大样本的近似分布。

 

 

 

 

 

  二、近代描述统计学

   近代描述统计学形成期间大致在十九世纪中叶至二十世纪上半叶。由于这种“描述”特色由一批原是研究生物进化的学者们提炼而成,因此历史上称他们为生物统计学派。生物统计学派的创始人是英国的高尔顿(F. Galton,1822~1911),主将是高尔顿的学生K. 皮尔逊(Karl Pearson,1857~1936)。

(一) 高尔顿的主要贡献

   1、初创生物统计学为了研究人类智能的遗传问题,高尔顿仔细地阅读了三百多人的 传记,以初步确定这些人中间多少人有亲属关系以及关系的大致密切程度。然后再从一组组知名人士中分别考察,以便从总体上来了解智力遗传的规律性。为了获得 更多人的特性和能力的统计资料,高尔顿自1882年起开设“人体测量实验室”。在连续六年中,共测量了9337人的“身高、体重、阔度、呼吸力、拉力和压 力、手击的速率、听力、视力、色觉及个人的其它资料”,他深入钻研那些资料中隐藏着的内在联系,最终得出“祖先遗传法则”。他努力探索那些能把大量数据加 以描述与比较的方法和途径,引入了中位数、百分位数、四分位数、四分位差以及分布、相关、回归等重要的统计学概念与方法。1901年,高尔顿及其学生皮尔 逊在为《生物计量学》(Biometrika)杂志所写的创刊词中,首次为他们所运用的统计方法论明确提出了“生物统计”(Biometry)一词。高尔顿解释道:“所谓生物统计学,是应用于生物学科中的现代统计方法”。从高尔顿及后续者的研究实践来看,他们把生物统计学看作为一种应用统计学,其研究范围,既用统计方法来研究生物科学中的问题,更主要的是发展在生物科学应用中的统计方法本身。

2、对统计学的贡献

   (1) 关于变异。变异是进化论中的重要概念,高尔顿首次以统计方法加以处理,最终导致了英国生物统计学派的创立。1889年,高尔顿把总体的定量测定法引入遗传研 究中。高尔顿通过总体测量发现,对动物或植物的每一个种别都可以决定一个平均类型。在一个种别中,所有个体都围绕着这个平均类型,并把它当作轴心向多方面 变异。这就是他在《遗传的天赋》(Galton, F. (1869/1892/1962). Hereditary Genius: An Inquiry into its Laws and Consequences. Macmillan/Fontana, London. )一书中提出的“平均数离差法则”。
   (2)关于“相关”统计相关法是由高尔顿创造的。关于相关研究的起因,最早是他因度量甜豌豆的大小,觉察到子代在遗传后有“返于中亲”的现象。 1877年他搜集大量人体身长数据后,计算分析高个子父母、矮个子父母以及一高一矮父母的后代各有多少个高个子和矮个子子女,从而把父母高的后代高个子比 较多、父母矮的其后代高个子比较少这一定性认识具体化为父母与子女之间在身长方面的定量关系。1888年,高尔顿在“相关及其主要来自人体的度量” (Galton, F. (1888). Co-relations and their measurement, chiefly from anthropometric data. Proceedings of the Royal Society, 45, 135-145. )一文中,充分论述了“相关”的统计意义,并提出了高尔顿相关函数(即现在常用的相关系数)的计算公式。
   (3) 关于“回归”。1870年,高尔顿在研究人类身长的遗传时发现:高个子父母的子女,其身长有低于他们父母身长的趋势;相反,矮个子父母的子女,其身长却往往 有高于他们父母身长的趋势,从人口全局来看,高个子的人“回归”于一般人身长的期望值,而矮个子的人则作相反的“回归”。这是统计学上“回归”的最初涵 义。1886年,高尔顿在论文“在遗传的身长中向中等身长的回归”(Galton F. Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute 1886;15:246-63.)中,正式提出了“回归”概念。

(二)皮尔逊的主要贡献

   对生物统计学倾注心血,并把它上升到通用方法论高度的是皮尔逊。皮尔逊的一生是统计研究的一生,他对统计学的主要贡献有:
   1、变异数据的处理生物统计中所取得的数据常常是零乱的,很难看出其所以然。为此,皮尔逊首先探求处理数据的方法,他所首创的频数分布表与频数分布图如今已成为统计方法中最基本的手段之一。
   2、分布曲线的选配。十九世纪以前,人们认为以频数分布描述变异值,最终都表现为正态分布曲线。但是,皮尔逊从生物统计资料的经验分布中,注意到许多 生物上的度量不具有正态分布,而常常呈偏态分布,甚至倾斜度很大;也不一定都是单峰,也有非单峰的。说明“唯正态”信念并不可靠。1894年,他在“关于 不对称频率曲线的分解”(On the Dissection of Asymmetrical Frequency Curves (Philosophical Transactions of the Royal Society of London,Ser. A, vol. 185: 71 - 110, 1894))一文中首先把非对称的观察曲线分解为几个正态曲线。他利用所谓“相对斜率”的方法得到12种分布函数型,其中包括正态分布、矩形分布、J型分布、U型分布或铃型分布等。后来经R. 费歇尔(R.A. Fisher,1890~1962)的进一步研究,皮尔逊分布曲线中第Ⅰ、Ⅱ、Ⅲ、Ⅳ及Ⅶ型出现在小样本理论内。尽管,皮尔逊的曲线体系的推导方法是缺乏理论基础的,但也给人们不少启迪。
    3、卡方检验的提出。1900年皮尔逊独立地又重新发现了统计学发展概况分布,并提出了有名的“卡方检验法”(Test of 统计学发展概况)。皮尔逊获得了统计量:统计学发展概况=∑(实际次数-理论次数)2 /理论次数,并证明了当观察次数充分大时,统计学发展概况总是近似地服从自由度为(k-1)的统计学发展概况分布,其中k表示所划分的组数。在自然现象的范围内,统计学发展概况检验法运用得很广泛。后经R. 费歇尔补充,成为了小样本推断统计的早期方法之一。


   4、回归与相关的发展回归与相关,经皮尔逊进一步作了发展后,这两个出自于生物统计学领域的概念,便被推广 为一般统计方法论的重要概念。 1896年,他在“进化论的数理研究:回归、遗传和随机交配”(Pearson, K. (1896), "Mathematical Contributions to the Theory of Evolution. III. Regression, Heredity and Panmixia," Philosophical Transactions of the Royal Society of London , 187, 253-318.)一文中得出至今仍被广泛使用的线性相关计算公式:统计学发展概况。皮尔逊还得出回归方程式:统计学发展概况(其中统计学发展概况统计学发展概况根据最小二乘法计算获得),以及回归系数的计算公式:当统计学发展概况统计学发展概况而变时统计学发展概况;当统计学发展概况统计学发展概况而变时,统计学发展概况。此外,在1897~1905年,皮尔逊还提出复相关、总相关、相关比等概念,不仅发展了高尔顿的相关理论,还为之建立了数学基础。'

三、现代推断统计学

    现代推断统计学形成期间大致是二十世纪初叶至二十世纪中叶。人类历史进入二十 世纪后,无论社会领域还是自然领域都向统计学提出更多的要求。各种事物与现象之间繁杂的数量关系以及一系列未知的数量变化,单靠记录或描述的统计方法已难 以奏效。因此,相继产生“推断”的方法来掌握事物总体的真正联系以及预测未来的发展。从描述统计学到推断统计学,这是统计发展过程中的一个大飞跃。统计学 发展中的这场深刻变革是在农业田间试验领域中完成的。因此,历史上称之为农业试验学派。对现代推断统计的建立贡献最大的是英国统计学家戈塞特(W. S. Gosset,1876~1937)和费歇尔。

(一) 戈塞特的t检验与小样本思想

    统计学发展概况分布是统计中的一个重要分布,它与统计学发展概况的微小差别是戈塞特(Gosset, W. S. 1876-1937)提出的。他是英国一家酿酒厂的化学技师,在长期从事实验和数据分析工作中,发现了t分布,但在当时,Gosset的公司害怕商业机密外泄,所以禁止员工对外发表文章。所以,Gosset在1908年以“Student”笔名发表此项结果,故后人又称它为“学生氏分布”。在当时正态分布一统天下的情况下,戈塞特的t分布没有被外界理解和接受,只能在他的酿酒厂中使用,直到1923年英国统计学家费歇尔给出分布的严格推导并于1925年编制了t分布表后,t分布才得到学术界的承认,并获得迅速的传播、发展和应用。
    1908年,戈塞特首次以“学生”(Student)为笔名,在《生物 计量学》杂志上发表了“平均数的概率误差”(Gosset, WS (under the pseudonym of "Student"). 1908. The probable error of a mean. Biometrika 6: 1–25.)。由于这篇文章提供了“学生t检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。后来,戈塞特又连续发表了 “相关系数的概率误差”(1909)、“非随机抽样的样本平均数分布”(1909)、“从无限总体随机抽样平均数的概率估算表(1917),等等。他在这 些论文中,第一,比较了平均误差与标准误差的两种计算方法;第二,研究了普阿松分布应用中的样本误差问题;第三,建立了相关系数的抽样分布;第四,导入了 “学生”分布,即t分布。这些论文的完成,为“小样本理论”奠定了基础;同时,也为以后的样本资料的统计分析与解释开创了一条崭新的路子。由于戈塞特开创的理论使统计学开始由大样本向小样本、由描述向推断发展,因此,有人把戈塞特推崇为推断统计学(尤其是小样本理论研究)的先驱者。

(二) R. 费歇尔的统计理论与方法

    R. 费歇尔一生先后共写作论文395篇。在世界各国流传最广泛的统计学著作是:1925年出版的《供研究人员用的统计方法》(Statistical Methods for Research Workers)、1930年出版的《自然选择的遗传原理》(The Genetical Theory of Natural Selection)、1935年出版的《试验设计》(The design of experiments)、1938年与耶特斯(Yates)合著出版的《供生物学、农学与医学研究用的统计表》(Statistical tables for biological, agricultural and medical research (1938, coauthor:Frank Yates))、1938年出版的《统计估计理论》、1950年出版的《对数理统计的贡献》(Contributions to mathematical statistics, Wiley, NewYork)、1956年出版的《统计方法和科学推断》(Statistical methods and scientific inference. Oliver and Boyd, Edinburg)等。当时,他在统计学方面居世界领先地位,他的贡献是多方面的。
    1、“通用方法论”R. 费歇尔非常强调统计学是一门通用方法论,他认为无论对各种自然现象或社会生活现象的研究,统计方法及其计算公式“正如同其它数学科目一样,这里同一公式适用于一切问题的研究”。他指出“统计学是应用数学的最重要部分,并可以视为对观察得来的材料进行加工的数学”。
   2、“假设无限总体”R. 费歇尔认为,在研究各种事物现象,包括社会经济现象时,必须把具体物质内容的信息舍弃掉,让统计处理的只是“统计总体”。比如说,“如果我们已有关于一万 名新兵身长的资料,那么,统计研究的对象不是新兵的整体,而是各种身长尺寸的总体”。显然,R. 费歇尔只是对构成统计总体各因素的某些标志感兴趣而不是各因素的本身。其目的就是为了使问题简化,便于统计上的处理。他在1922年所写的“关于理论统计 学的数学基础”("On the mathematical foundations of theoretical statistics" Philosophical Transactions of the Royal Society, A, 222: 309-368. (1922))一文中,提出了一个重要的概念:“假设无限总体”。“所谓假设的无限总体,即现有的资料就是它的随机样本”。
   3、抽样分布R. 费歇尔跨进统计学界就是从研究概率分布开始的。1915年,他在《生物计量学》杂志上发表“无限总体样本相关系数值的频率分布”("Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population." Biometrika, 10: 507-521. (1915) )。由于这篇论文对相关系数的一般公式作了论证,对后来的整个推断统计的发展有一定贡献。因此,有人把这篇论文称为现代推断统计学的第一篇论文。1922年,R. 费歇尔导出相关系数rZ分布,后来还编制了《Z曲线末端面积为0.05、0.01和0.001的Z数值分布表》。1924年,R. 费歇尔对分布、统计学发展概况分布和Z分布加以综合研究,使戈塞特的t检验也能适用于大样本,使皮尔逊的统计学发展概况检验也能适用于小样本。1938年,R. 费歇尔与耶特斯合编了《F分布显著性水平表》,为该分布的研究与应用,提供了方便。
   4、方差分析方差和方差分析两词,由R. 费歇尔于1918年在“孟德尔遗传试验设计间的相对关系”("The correlation between relatives on the supposition of Mendelian inheritance" Trans. Roy. Soc. Edinb., 52: 399-433. (1918). It was in this paper that the word variance was first introduced into probability theory and statistics.)一文中所首创。方差分析也称变异数分析,其系统研究开始于1923年R. 费歇尔与麦凯基(Mackenzie, WA)合写的“对收获量变化的研究”一文中。而于1925年,R. 费歇尔在《供研究人员用的统计方法》中对方差分析以及协方差分析进一步作了完整的叙述。“方差分析法是一种在若干能相互比较的资料组中,把产生变异的原因 加以区分开来的方法与技术”。方差分析简单实用,大大提高了试验分析效率,对大样本、小样本都可使用。
   5、试验设计自1923年起,R. 费歇尔陆续发表了关于在农业试验中控制试验误差的论文。1925年他提出随机区组法和拉丁方法,到1926年,R. 费歇尔发表了试验设计方法的梗概;这些方法在1935年进一步得到完善,并首先在卢桑姆斯坦德农业试验站中得到检验与应用,后来又被他的学生推广到许多其 它科学领域。
   6、随机化原则R. 费歇尔在创建试验设计理论的过程中,提出了十分重要的“随机化”原则。他认为这是保证取得无偏估计的有效措施,也是进行可靠的显著性检验的必要基础。所 以,他把随机化原则放在极重要的地位,“要扫除可能扰乱资料的无数原因,除了随机化方法外,别无它法。”1938年,他和耶特斯合作编制了有名的Fisher Yates随机数字表。利用随机数字表保证总体中每一元素有同等被抽取的机会。这样,R. 费歇尔就把随机化原则以最明确、最具体化的形式引入统计工作与统计研究中。
    R. 费歇尔在统计发展史上的地位是显赫的。这位多产作家的研究成果特别适用于农业与生物学领域,但它的影响已经渗透到一切应用统计学,由此所提炼出来的推断统计学已越来越被广大领域所接受。因此,美国统计学家约翰逊(P.O. Johnson)于1959年出版的《现代统计方法:描述和推断》一书中指出:“从1920年起一直到今天的这段时期,称之为统计学的费歇尔时代是恰当的”。

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值