概率论与统计学的关系是什么?

统计学合称为“概率统计”,但显然这两者是有关系,但不是同一的,那么二者的关系究竟是什么呢?

简单来说,概率论研究的是“是什么”的问题,统计学研究的是‘怎么办“的问题。
统计学不必然用到概率论,比如用样本均值来表征总体某种特征的大致水平,这个和概率就没有关系。
但是因为概率论研究的对象是随机现象,而统计学恰恰充满了无处不在的随机现象:因为要随机抽样。因此概率论就成为了精确刻画统计工具的不二法门

Lary Wasserman 在 All of Statistics 的序言里有说过概率论和统计推断的区别,相对于上面的图,更加透彻:

The basic problem that we study in probability is:
Given a data generating process, what are the properities of the outcomes?
...
The basic problem of statistical inference is the inverse of probability:
Given the outcomes, what can we say about the process that generated the data?

概率论是统计推断的基础,在给定数据生成过程下观测、研究数据的性质;而统计推断则根据观测的数据,反向思考其数据生成过程。预测、分类、聚类、估计等,都是统计推断的特殊形式,强调对于数据生成过程的研究。


统计和概率是方法论上的区别,一个是推理,一个是归纳。

打个比方,概率论研究的是一个白箱子,你知道这个箱子的构造(里面有几个红球、几个白球,也就是所谓的分布函数),然后计算下一个摸出来的球是红球的概率。而统计学面对的是一个黑箱子,你只看得到每次摸出来的是红球还是白球,然后需要猜测这个黑箱子的内部结构,例如红球和白球的比例是多少?(参数估计)能不能认为红球40%,白球60%?(假设检验)

而概率论中的许多定理与结论,如大数定理、中心极限定理等保证了统计推断的合理性。做统计推断一般都需要对那个黑箱子做各种各样的假设,这些假设都是概率模型,统计推断实际上就是在估计这些模型的参数。


概率论是统计学的基石。
统计学是从旧时的赌博来的。当时的赌徒们通过历史数据的记录,逐渐总结出了描述性统计。利用这些描述性统计的数据,使得他们胜率直线上升。哪个有赚哪个稳赔,哪个波动大没规律,这些经验逐渐成为了知识,并在之后的各个领域里体现了这种智慧。
赌博中的统计,就是要用以往的胜败估计下一次成功的大小。为什么能够这样做,为什么以往的数据能对下一次数据有较为准确的估计,这是概率论要说清楚的。大数定律的三个定理就是要说明为什么样本均值可以估计总体均值。这个估计的准确性却是要由统计学说的,对于各种分布的参数估计,之后的模拟估测,虽然与概率论看似完全无关,实际上却是由他们在支撑着统计学这个科目。这个情况对于参数统计,非参数统计,半参数统计,都是一样的。
总结起来,一个是对原理的讨论,一个是对方法的讨论。



1.概率論是數學分支,統計不是。
2.學概率要有很好的數學基礎(測度論,實變函數論),統計不然。
3.在學統計的人眼中,研究概率和研究純數學一樣。在學概率的人眼中,統計和數學沒太大關係和工科一樣。



概率论是由概率分布推断样本性质,如大数定律、中心极限定理。
统计是由样本信息反推概率分布,如概率分布参数的点估计、区间估计,以及线性回归。

在现实中二者结合很紧密。通过样本训练出概率分布,相当于老师不断教学生知识(样本),让学生大脑形成当前对象的模型;在学生学会了之后,就相当于这个模型(概率分布)成型了,就可以自己去推导、产生知识(样本)。


概率论就好比是给你一个模型,你可以知道这个模型会产生什么样的数据;而统计则是给你一些数据,你来判断是由什么样的模型产生的。

再从小概率事件看看两者的关系:概率论会说小概率事件必然发生。因为随着试验次数的增多,该事件会发生的期望np终会大于1。统计则倾向于忽略小概率事件或者认为小概率事件不会发生。例如MLE提供了最大似然估计,估计是一个以假设值代替真实值的过程,这个过程一个自然的思想便是认为小概率不会发生,所以我们有充足的理由认为估计是可接受的。


从源头谈一谈吧:

统计学有两个源头,概率论和国情学。


16世纪,概率论的体系渐渐发展起来,而这要从一种和掷骰子有关的赌博活动说起。虽然这个起源并不是很光彩,而且有待考证,但是在欧洲兴起并兴盛的骰子赌博活动,引起了一批好奇的学者的关注。掷骰子得到的点数直接决定赌局的输赢,于是开始研究各种点数出现的机遇的大小,胜率的大小,最早开始数量研究并且给概率下定义的学者已经无从考证了,可是有一些著作的问世和问题的讨论对概率统计的发展产生了重大的影响,比如卡丹诺的《机遇博弈》、惠更斯的《机遇的规律》 、伯努利的《推测数》 、著名的分赌本问题、帕斯卡和费马之间的通信,在这期间,古典概型得到了极大的发展,概率、期望、二项分布、中心极限定理等概念被相继提出。


统计学的英文是“statistic”,其实它是源于意大利文的“stato”,意思是“国家”、“情况”,也就是后来英语里的state(国家),在十七、十八世纪,统计学很多时候都是以国情学的姿态出现的。而且很长一段时间,都是在研究人口统计,尤其是生男生女的比例问题。概率论和国情学的融合,统计学渐渐发展也是从这开始。在这期间时,一些重要的理论被发现,二项分布和大数定律。根据二项分布建立了统计推断的最早的模型而且,而且对此分布中未知概率的研究也成为贝叶斯学派的思想起源。而之后的几百年里,中心极限定理的渐渐完善的过程中,一系列的统计量相继被提出,这也构成了大样本方法的基础。

概率论是统计学的基础,统计学是概率论的发展,二者密不可分。



展开阅读全文

没有更多推荐了,返回首页