【概率论与数理统计】简单梳理知识框架和概数史

【概率论与数理统计】简单梳理知识框架和概数史

前言

写一下概数的知识框架。看情况补充概率论的历史帮助理解概率论的应用。

快速写一下,立一个靶子,然后后期慢慢修饰勾勒。

知识框架参考《张宇30讲2021》、36讲、闭关修炼、《数理统计学简史》

本来想结合概数史的例子来讲概数的知识点的,但是目前还没好的思路来串通。

这篇文章也是热身,梳理一遍概率论与数理统计。

我对数理统计特别感兴趣。

大样本与小样本。

1857-1908以卡尔.皮尔逊为代表的旧统计学,处理大样本,如社会统计、生物统计,使用矩估计

1908-1954以费歇尔为代表的新统计学,处理小样本,如生物实验,使用t分布、F分布、Z分布)

1954以杰弗里斯为代表的贝叶斯学派,处理大样本。

笔记

我是一个追求实用的人,感兴趣,我才能投入精力,不感兴趣,事倍功半。

但是我根据课本或者教辅资料去学习的时候,真的是事倍功半,一堆自嗨的描述,看完跟看了个寂寞一样。于是我打算不按照书本上的来,自己梳理一个逻辑框架。

概率知识框架

概率论与数理统计

一维随机变量及其分布

知识结构

image-20201129210015402

做题框架

image-20201129210135312

多维随机变量及其分布

image-20201129210241480

数字特征

知识框架

image-20201129210418487

做题框架

image-20201129210456590

image-20201129210511088

大数定律

知识框架

image-20201129210553290

做题框架

image-20201129210619193

数理统计

知识框架

image-20201129210705326

做题框架

image-20201129210724015

image-20201129210742560

概数史

内容参考《数据挖掘中所需的概率论与数理统计知识》、《数理统计学简史(陈希孺)》

之前写过部分笔记《 考研数学一的基本计算与应用以及对概数的膜拜》、《 有趣的微积分历史

在数量统计学历史上,1908年以前,统计学的主要用武之地先是社会统计问题,后来加入生物统计问题。这些问题中的数据都是大量的、自然采集的。所用的方法,以拉普拉斯中心极限定理为依据,总是归结到正态。简而言之,那之前的统计问题是大样本的。其顶峰和押阵大将是卡尔.皮尔逊。(Mark I统计)

在1908年以后,受人工控制的试验条件下所得数据的统计分析问题,日渐引人注意。由于试验数据量一般不大,那种依赖近似正态分布的传统方法,开始不适用,并促使人们研究小样本的统计方法。这一方向的先驱是戈塞特(笔名student,t分布),主力是费歇尔(1890-1962生于伦敦,工作量多质高面广,Z分布)。

如果把多维正态纳入线性统计模型这个大体系中,从19世纪初以来,其发展大致可分为三个阶段:

  • 第一阶段自19世纪初到19世纪末。代表人物有高斯、拉普拉斯、勒让德等人,形式是误差论,逐渐渗入统计数据分析问题。
  • 第二阶段19世纪末到20世纪20年代初期,代表人物主要是卡尔.皮尔逊,形式是多元正态与线性统计模型联系起来,重点转到相关回归。
  • 第三阶段开始自1922年,代表人物是费歇尔,形式是回复到以自变量为非随机并离散化,重点问题是方差分析联系到试验设计的发展。

弄清楚这个模型发展的脉络,才大体上懂得了自19世纪初以来统计学发展的主流。

贝叶斯学派经过百余年的沉寂,到20世纪上半叶,经过一些学者的鼓吹而复活,到20世纪下半叶进入全盛时期。其中起了重要作用的有杰弗里斯,他在1939年出版的《概率论》一书,成了如今贝叶斯学派的经典著作。萨凡奇在1954年出版了《统计推断》一书,也是贝叶斯统计的著作。前两者的著作偏于理论和思辨,而林德来的著作则比较具体,他给一些重要的频率学派工作以贝叶斯统计的解释,在应用界有更大影响。

贝叶斯学派在20世纪上半叶不得势的原因,一是像费歇尔、奈曼这样的大统计学家对它持否定态度。

自20世纪中叶以来,频率统计学派的发展开始碰到一些问题,如数学化程度越来越高,有用的方法的产出相对减少,小样本方法缺乏进展从而转向大样本研究等,在应用工作者中产生不满。在这种背景下,贝叶斯统计以其简单的操作方式加上在解释上的某些合理性吸引了不少应用者。甚至使一些频率派统计学家改为贝叶斯学派。

早期概数史(1657-1837)概率论

从1657年惠更新发表《论赌博中的计算》(概率论的诞生)到1837年,海根提出元误差学说,统计学家们正式确立误差服从正态分布

概率论历史人物和关键事件

  • 惠更新:1657年发表了《论赌博中的计算》(《机遇的规律》),被认为是概率论诞生的标志。从关于公平赌博值的一条公理出发,推导出有关数学期望的三个基本定理。成就与牛顿相当。
  • 伯努利(1654-1705):1713年出版了《推测术》。伯努利在此书中,不仅对惠更斯的关于掷骰子等赌博活动中出现的额各种情况的概率进行了计算,而且还提出了著名的“大数定律”。标志着数学概率论的开端。与莱布尼兹保持密切联系,在微积分方面,是牛、莱以下的第一人。
  • 棣莫弗:1718年出版《机遇论》,1733年,棣莫弗从二项分布逼近得到正态密度函数,首次提出中心极限定理;
  • 拉普拉斯:1812年出版《概论的分析理论》。1780年,拉普拉斯建立了中心极限定理的一般形式
  • 贝叶斯(1701-1761):遗作《机遇理论中一个问题的解》。可以解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题(由原因推结构,概率论;由结果推原因,数理统计)
  • 勒让德:1805年,勒让德发明最小二乘法;
  • 高斯:1809年,高斯引入正态误差理论,导出了误差服从正态分布的结论。
  • 海根:1837年,海根提出元误差学说,统计学家们正式确立误差服从正态分布

概率论与数理统计的基础是微积分。正态分布的概率密度函数中用到了相关定积分的知识。最小二乘法问题的相关探讨求证用到了求偏导数的等概念

伯努利的大数定律和棣莫弗的中心极限定理的主角都是二项分布,在早期的概率统计史,这是唯一的一个分布。

概率论与微积分息息相关

积分的发展史

  • 牛顿(1642–1726):万有引力,微积分。
  • 莱布尼兹(1646-1716):张宇老师眼馋莱布尼茨纪念馆的莱布尼兹手稿。
  • 伯努利:牛顿-莱布尼兹之后,,微积分第一人。伯努利大数定律。
  • 洛必达(1661-1704):洛必达法则。富二代。
  • 泰勒(1685-1731):泰勒公式
  • 高斯(1777-1855):高斯公式,数学王子
  • 格林(1783-1841):格林公式
  • 阿贝尔(1802-1829):阿贝尔定理,享年27岁。
  • 黎曼(1826-1866):黎曼积分、定积分。有名的数学分析大师。

中值定理的发展史

  • 费马:1601-1665,提出费马大定理
  • 罗尔:1652-1719,搞方程的,不会微积分,与牛顿作对,说微积分有缺陷,死前说微积分有可取的地方。为了纪念他,有个罗尔定理。
  • 欧拉(1707-1783):拉格朗日的老师。师生故事感人。数学史上的传奇人物,28岁得眼病。
  • 拉格朗日(1736-1813):欧拉的学生,法国人,后来去了俄国,使俄国近代数学突飞猛进。拉格朗日中值定理
  • 柯西(1789-1857):拉格朗日的学生,拉格朗日告诉他父亲十五岁前不接触数学,十五岁之后亲自教他数学。柯西中值定理。
中期概数史(1857-1981)数理统计

随便限定的一个时间段,以卡尔皮尔逊的出生为开始,以奈曼的去世为结束

数理统计历史人物和关键事件

  • 卡尔.皮尔逊(1857-1936):统计学权威,一枝独秀(9世纪末到20世纪20年代初期)。大样本的数理统计的巅峰,体系核心是矩法。在大样本的数理统计上大放异彩。
  • 哥色特(笔名student):1876年出生,1907年在 皮尔逊那里学习和研究统计学。他着重关心由认为实验下所得的少量数据的统计分析问题,在当时这是一个全新的课题。而当时统计学占主导地位的卡尔.皮尔逊学派强调由自然观察得到的大量数据的统计处理。这一研究的成果就是让他名垂统计学史册的论文《均值的或然误差》。后又研究出t分布,被统计界尊为小样本理论的开创者。为人谦逊,人缘好,人不在江湖,但江湖处处都是哥的传说。是卡尔.皮尔逊的朋友。和费歇尔经常书信往来。1925年奈曼去找卡尔.皮尔逊未遇,student给予他帮助。并且奈曼与费歇尔的初次见面也是student介绍的。爱根.皮尔逊也是和其经常书信往来。
  • 费歇尔(1890-1962):与卡尔.皮尔逊争锋相对。将眼光放在小样本的数理统计上,继卡尔.皮尔逊之后的统计学大佬。是20世纪成就最大的统计学家,是以卡尔.皮尔逊为代表的旧统计学,朝向以他为代表的新统计学的转变中的关键人物。1912年费歇尔研究student的《均值的或然误差》,发现了其中的推导漏洞,于是和student联系,这也开始了两人长达二十余年的友谊。1914年一战,费歇尔弃笔从戎,但视力不好,此后五年的职业是中学教师,期间萌生了一种思想,发展农业,为此他还短时期内运营过一个小型农场。1919年接受达尔文一位亲戚的介绍,进入农业试验站工作,这成了他一生的重大转折点,也是统计学发展的转折点,在那工作的十余年里,他发展了一整套试验设计的思想,这十余年是费歇尔统计学生涯的全盛时期,他的大部分重要研究成果都产生于这一时期。1922年费歇尔想在大学学院扩建一个正式的生物计量学俱乐部,但是此事需要卡尔.皮尔逊的发起,但是和卡尔.皮尔逊不对付,于是托student说情,虽然事情没办成,但是可以看出两者的亲密关系。1933年卡尔.皮尔逊退休并将其职务一分为二,费歇尔接替其高尔登优生学讲座教授。
  • 爱根.皮尔逊(1895-1980):卡尔.皮尔逊的儿子。为人性格内向,不善于与人交往。在当时统计界名流中,唯有student与他保持良好的关系。他1926年开始与student通信以来,一直到student去世的1937年。年轻时随父亲研究统计学,待奈曼1925年秋到大学学院参加卡尔.皮尔逊的研究生班时,爱根在班上协助其父任辅导,后来到1933年卡尔.皮尔逊退休并将其职务一分为二,爱根接替其统计系主任的工作直到退休。实际在1920年代中期开始,爱根背离其父亲的那套大样本统计,转而研究费歇尔的小样本统计。
  • 奈曼(1894-1981):年轻时对纯数学有强烈的兴趣并有很高的素养。1926年会见了费歇尔,在卡尔.皮尔逊那里进修了一年,最后离开,对那里的统计学表示失望,认为没有多少数学。奈曼格外重视统计学中数学严格性的观点。1938年4月应美国加州伯克利大学数学系的招聘担任该系教师。这成了美国统计学发展以及他个人的转折点。

大样本与小样本。

以卡尔.皮尔逊为代表的旧统计学与以费歇尔为代表的新统计学

为解决受人工控制的试验条件下所得数据的统计分析问题而诞生的。1908年开始,1919年到1933年达到顶峰。有三个关键人物,student、费歇尔、奈曼。

在数量统计学历史上,1908年以前,统计学的主要用武之地先是社会统计问题,后来加入生物统计问题。这些问题中的数据都是大量的、自然采集的。所用的方法,以拉普拉斯中心极限定理为依据,总是归结到正态。简而言之,那之前的统计问题是大样本的。其顶峰和押阵大将是卡尔.皮尔逊。(Mark I统计)

在1908年以后,受人工控制的试验条件下所得数据的统计分析问题,日渐引人注意。由于试验数据量一般不大,那种依赖近似正态分布的传统方法,开始不适用,并促使人们研究小样本的统计方法。这一方向的先驱是戈塞特(笔名student,t分布),主力是费歇尔(1890-1962生于伦敦,工作量多质高面广,Z分布)。

数理统计学中有三大分布之说,因为这三大分布和许多重要的统计推断问题有关。在20世纪前20年,统计学的重点仍在相关回归,而这与多维正态密切联系,不过三大分布与多维正态分布无关,其根子是高斯线性模型。

χ²分布作为描述统计量的分布,最初是从线性模型最小二乘法的残差平方和分布问题导出的。

如果把多维正态纳入线性统计模型这个大体系中,从19世纪初以来,其发展大致可分为三个阶段:

  • 第一阶段自19世纪初到19世纪末。代表人物有高斯、拉普拉斯、勒让德等人,形式是误差论,逐渐渗入统计数据分析问题。
  • 第二阶段19世纪末到20世纪20年代初期,代表人物主要是卡尔.皮尔逊,形式是多元正态与线性统计模型联系起来,重点转到相关回归。
  • 第三阶段开始自1922年,代表人物是费歇尔,形式是回复到以自变量为非随机并离散化,重点问题是方差分析联系到试验设计的发展。

弄清楚这个模型发展的脉络,大体上懂得了自19世纪初以来统计学发展的主流

皮尔逊在1936年去世,其与费歇尔的争论也划上了句号。但费歇尔在1937年还发表了一篇文章:《皮尔逊教授与矩法》,指责皮尔逊把过多的注意力放在“用矩来拟合曲线”上,影响了学生们学习其他一些材料,如小样本、方差分析和估计理论等,这会愈来愈被认为是浪费时间。

从这场争论的结局看,费歇尔是胜利的一方。不过如果从两种方法的比较上看,而不涉及二人整个的体系,公允的结论应该是各有所长。在非参数领域,极大似然估计基本不适用,但矩估计可以顺利使用。但极大似然估计渐进方差最小是其主要优点,一般都认为极大似然估计优于矩估计。

皮尔逊之所以执着于矩法,是因为事关他的整个体系,所以他不认同student、费歇尔等人小样本的那一套。

近代意义下的假设检验,始于奈曼和爱根.皮尔逊(1895-1980)在20世纪20-30年代的工作,就其实用层面来看,则是卡尔.皮尔逊和费歇尔两位大师主导。

贝叶斯学派

20世纪上半叶复活,20世纪下半叶全盛。

从小样本研究转向大样本研究

贝叶斯学派经过百余年的沉寂,到20世纪上半叶,经过一些学者的鼓吹而复活,到20世纪下半叶进入全盛时期。其中起了重要作用的有杰弗里斯,他在1939年出版的《概率论》一书,成了如今贝叶斯学派的经典著作。萨凡奇在1954年出版了《统计推断》一书,也是贝叶斯统计的著作。前两者的著作偏于理论和思辨,而林德来的著作则比较具体,他给一些重要的频率学派工作以贝叶斯统计的解释,在应用界有更大影响。

贝叶斯学派在20世纪上半叶不得势的原因,一是像费歇尔、奈曼这样的大统计学家对它持否定态度。

  • 奈曼本人终身属于频率学派,但他不大参与者两大学派的辩论。费歇尔则不然,20世纪30年代,费歇尔与杰弗里斯以写论文一应一答的形式,进行了长时间的辩论。由于费歇尔当时在统计界持牛耳的地位而杰弗里斯又不是实用统计学家,费歇尔的倾向影响了一大群人。
  • 另外,20世纪上半叶正是频率学派得到大发展的一个时期,发现了一些有普遍应用意义的、有力的统计方法。在这种情况下,数学家不会想另寻出路。

自20世纪中叶以来,频率统计学派的发展开始碰到一些问题,如数学化程度越来越高,有用的方法的产出相对减少,小样本方法缺乏进展从而转向大样本研究等,在应用工作者中产生不满。在这种背景下,贝叶斯统计以其简单的操作方式加上在解释上的某些合理性吸引了不少应用者。甚至使一些频率派统计学家改为贝叶斯学派。

现代概数史(1981-至今)大数据

随便写写,暂时没研究,毕竟不是数学专业的人,而且我也没精力去深入了,以后如果需要再去学。

列一个坑,也欢迎大佬填坑。

总结

内容涉及过多,不好一次性写好,之后分小块小块的写。

更新地址:GitHub

更多内容请关注:CSDNGitHub掘金

  • 44
    点赞
  • 210
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值