数据挖掘中所需的概率论与数理统计知识

最新推荐文章于 2020-01-04 19:47:49 发布

我想娶这个

最新推荐文章于 2020-01-04 19:47:49 发布

阅读量265

点赞数 1

本文链接：https://blog.csdn.net/hggjgff/article/details/83913413

版权

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

数据挖掘中所需的概率论与数理统计知识、上

分类： 30.Machine L&Data Mining 2012-12-17 19:24 22890人阅读评论(72) 收藏举报

目录(?)[+]

数据挖掘中所需的概率论与数理统计知识、上

（关键词：微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布）

导言：本文从微积分相关概念，梳理到概率论与数理统计中的相关知识，但本文之压轴戏在本文第4节（彻底颠覆以前读书时大学课本灌输给你的观念，一探正态分布之神秘芳踪，知晓其前后发明历史由来），相信，每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史，因为，只有了解各个定理.公式的发明历史,演进历程.相关联系，才能更好的理解你眼前所见到的知识，才能更好的运用之。

前言

一个月余前，在微博上感慨道，不知日后是否有无机会搞DM，微博上的朋友只看不发的围脖评论道：算法研究领域，那里要的是数学，你可以深入学习数学，将算法普及当兴趣。想想，甚合我意。自此，便从rickjin写的“正态分布的前世今生”开始研习数学。

如之前微博上所说，“今年5月接触DM，循序学习决策树.贝叶斯，SVM.KNN，感数学功底不足，遂补数学，从‘正态分布的前后今生’中感到数学史有趣，故买本微积分概念发展史读，在叹服前人伟大的创造之余，感微积分概念模糊，复习高等数学上册，完后学概率论与数理统计，感概道：微积分是概数统计基础，概数统计则是DM&ML之必修课。”包括读者相信也已经感觉到，我在写这个Top 10 Algorithms in Data Mining系列的时候，其中涉及到诸多的数学概念与基础知识(例如此篇SVM文章内诸多max.s.t.对偶.KKT条件.拉格朗日.松弛因子等问题则皆属于数学内一分支：最优化理论与算法范畴内)，特别是概率论与数理统计部分。更进一步，在写上一篇文章的时候，看到机器学习中那么多距离度量的表示法，发现连最起码的期望，方差，标准差等基本概念都甚感模糊，于此，便深感数学之重要性。

很快，我便买了一本高等教育出版社出版的概率论与数理统计一书，此书“从0-1分布、到二项分布、正态分布，概率密度函数，从期望到方差、标准差、协方差，中心极限定理，样本和抽样，从最大似然估计量到各种置信区间，从方差分析到回归分析，bootstrap方法，最后到马尔可夫链，以前在学校没开概率论与数理统计这门课，现在有的学有的看了”。且人类发明计算机，是为了辅助人类解决现实生活中遇到的问题，然计算机科学毕竟只发展了数十年，可在数学.统计学中，诸多现实生活问题已经思考了数百年甚至上千年，故，计算机若想更好的服务人类解决问题，须有效借鉴或参考数学.统计学。世间万事万物，究其本质乃数学，于变化莫测中寻其规律谓之统计学。

话休絮烦。本文结合高等数学上下册、微积分概念发展史，概率论与数理统计、数理统计学简史等书，及rickjin写的“正态分布的前世今生”系列(此文亦可看作读书笔记或读后感)与wikipedia整理而成，对数据挖掘中所需的概率论与数理统计相关知识概念作个总结梳理，方便你我随时查看复习相关概念，而欲深入学习研究的课后还需参看相关专业书籍.资料。同时，本文篇幅会比较长，简单来说：

第一节、介绍微积分中极限、导数，微分、积分等相关概念；
第二节、介绍随机变量及其分布；
第三节、介绍数学期望.方差.协方差.相关系数.中心极限定理等概念；
第四节、依据数理统计学简史介绍正态分布的前后由来；
第五节、论道正态，介绍正态分布的4大数学推导。

5部分起承转合，彼此依托，层层递进。且在本文中，会出现诸多并不友好的大量各种公式，但基本的概念.定理是任何复杂问题的根基，所以，你我都有必要硬着头皮好好细细阅读。最后，本文若有任何问题或错误，恳请广大读者朋友们不吝批评指正，谢谢。

第一节、微积分的基本概念

开头前言说，微积分是概数统计基础，概数统计则是DM&ML之必修课”，是有一定根据的，包括后续数理统计当中，如正态分布的概率密度函数中用到了相关定积分的知识，包括最小二乘法问题的相关探讨求证都用到了求偏导数的等概念，这些都是跟微积分相关的知识。故咱们第一节先复习下微积分的相关基本概念。

事实上，古代数学中，单单无穷小、无穷大的概念就讨论了近200年，而后才由无限发展到极限的概念。

1.1、极限

极限又分为两部分：数列的极限和函数的极限。

1.1.1、数列的极限

定义如果数列{xn}与常a 有下列关系:对于任意给定的正数e (不论它多么小), 总存在正整数N , 使得对于n >N 时的一切xn, 不等式 |xn-a |<e都成立, 则称常数a 是数列{xn}的极限, 或者称数列{xn}收敛于a , 记为或

也就是说，

1.1.2、函数的极限

设函数f(x)在点x0的某一去心邻域内有定义. 如果存在常数A, 对于任意给定的正数e (不论它多么小), 总存在正数d, 使得当x满足不等式0<|x-x0|<d 时, 对应的函数值f(x)都满足不等式 |f(x)-A|<e , 那么常数A就叫做函数f(x)时的极限, 记为

也就是说，

几乎没有一门新的数学分支是某个人单独的成果，如笛卡儿和费马的解析几何不仅仅是他们两人研究的成果，而是若干数学思潮在16世纪和17世纪汇合的产物，是由许许多多的学者共同努力而成。

甚至微积分的发展也不是牛顿与莱布尼茨两人之功。在17世纪下半叶，数学史上出现了无穷小的概念，而后才发展到极限，到后来的微积分的提出。然就算牛顿和莱布尼茨提出了微积分，但微积分的概念尚模糊不清，在牛顿和莱布尼茨之后，后续经过一个多世纪的发展，诸多学者的努力，才真正清晰了微积分的概念。

也就是说，从无穷小到极限，再到微积分定义的真正确立，经历了几代人几个世纪的努力，而课本上所呈现的永远只是冰山一角。

1.2、导数

设有定义域和取值都在实数域中的函数

。若

在点

的某个邻域内有定义，则当自变量

在

处取得增量

（点

仍在该邻域内）时，相应地函数

取得增量

；如果

与

之比当

时的极限存在，则称函数

在点

处可导，并称这个极限为函数

在点

处的导数，记为

。

即：

也可记为：，或。

1.3、微分

设函数

在某区间

内有定义。对于

内一点

，当

变动到附近的

（

也在此区间内）时。如果函数的增量

可表示为

（其中

是不依赖于

的常数），而

是比

高阶的无穷小，那么称函数

在点

是可微的，且

称作函数在点

相应于自变量增量

的微分，记作

，即

，

是

的线性主部。通常把自变量

的增量

称为自变量的微分，记作

，即

。

实际上，前面讲了导数，而微积分则是在导数

的基础上加个后缀

，即为：

。

1.4、积分

积分是微积分学与数学分析里的一个核心概念。通常分为定积分和不定积分两种。

不定积分的定义

一个函数

的不定积分，也称为原函数或反导数，是一个导数等于

的函数

，即

不定积分的有换元积分法，分部积分法等求法。

定积分的定义

直观地说，对于一个给定的正实值函数

，在一个实数区间

上的定积分：

定积分与不定积分区别在于不定积分便是不给定区间，也就是说，上式子中，积分符号没有a、b。下面，介绍定积分中值定理。

如果函数f(x)在闭区间[a,b]上连续, 则在积分区间[a,b]上至少存在一个点,

使下式成立：

这个公式便叫积分中值公式。

牛顿-莱布尼茨公式

接下来，咱们讲介绍微积分学中最重要的一个公式：牛顿-莱布尼茨公式。

如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则

此公式称为牛顿-莱布尼茨公式, 也称为微积分基本公式。这个公式由此便打通了原函数与定积分之间的联系，它表明：一个连续函数在区间[a, b]上的定积分等于它的任一个原函数在区间[a, b]上的增量，如此，便给定积分提供了一个有效而极为简单的计算方法，大大简化了定积分的计算手续。

下面，举个例子说明如何通过原函数求取定积分。

如要计算

，由于

是

的一个原函数，所以

。

1.5、偏导数

对于二元函数z = f(x，y) 如果只有自变量x 变化，而自变量y固定这时它就是x的一元函数，这函数对x的导数，就称为二元函数z = f(x，y)对于x的偏导数。
定义设函数z = f(x，y)在点(x0，y0)的某一邻域内有定义，当y固定在y0而x在x0处有增量

时，相应地函数有增量

，

如果极限

存在，则称此极限为函数z = f(x，y)在点(x0，y0)处对 x 的偏导数，记作：

例如

。类似的，二元函数对y求偏导，则把x当做常量。

此外，上述内容只讲了一阶偏导，而有一阶偏导就有二阶偏导，这里只做个简要介绍，具体应用具体分析，或参看高等数学上下册相关内容。接下来，进入本文的主题，从第二节开始。

第二节、离散.连续.多维随机变量及其分布

2.1、几个基本概念点

(一)样本空间

定义：随机试验E的所有结果构成的集合称为E的样本空间，记为S={e}，
称S中的元素e为样本点，一个元素的单点集称为基本事件．

(二)条件概率

条件概率就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P（A|B），读作“在B条件下A的概率”。
联合概率表示两个事件共同发生的概率。A与B的联合概率表示为或者。
边缘概率是某个事件发生的概率。边缘概率是这样得到的：在联合概率中，把最终结果中不需要的那些事件合并成其事件的全概率而消失（对离散随机变量用求和得全概率，对连续随机变量用积分得全概率）。这称为边缘化（marginalization）。A的边缘概率表示为P（A），B的边缘概率表示为P（B）。

在同一个样本空间Ω中的事件或者子集A与B，如果随机从Ω中选出的一个元素属于B，那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中，我们可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到

有时候也称为后验概率。

同时，P（A|B）与P（B|A）的关系如下所示：

。

(三)全概率公式和贝叶斯公式

1、全概率公式

假设{ Bn : n = 1, 2, 3, ... } 是一个概率空间的有限或者可数无限的分割，且每个集合Bn是一个可测集合，则对任意事件A有全概率公式：

又因为

所以，此处Pr(A | B)是B发生后A的条件概率，所以全概率公式又可写作：

在离散情况下，上述公式等于下面这个公式：

。但后者在连续情况下仍然成立：此处N是任意随机变量。这个公式还可以表达为："A的先验概率等于A的后验概率的先验期望值。

2、贝叶斯公式

贝叶斯定理（Bayes' theorem），是概率论中的一个结果，它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中，贝叶斯定理（贝叶斯更新）能够告知我们如何利用新证据修改已有的看法。
通常，事件A在事件B（发生）的条件下的概率，与事件B在事件A的条件下的概率是不一样的；然而，这两者是有确定的关系，贝叶斯定理就是这种关系的陈述。

如此篇blog第二部分所述“ 据维基百科上的介绍，贝叶斯定理实际上是关于随机事件A和B的条件概率和边缘概率的一则定理。

如上所示，其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中，每个名词都有约定俗成的名称：

P(A)是A的先验概率或边缘概率。之所以称为"先验"是因為它不考虑任何B方面的因素。
P(A|B)是已知B发生后A的条件概率（直白来讲，就是先有B而后=>才有A），也由于得自B的取值而被称作A的后验概率。
P(B|A)是已知A发生后B的条件概率（直白来讲，就是先有A而后=>才有B），也由于得自A的取值而被称作B的后验概率。
P(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）。

按这些术语，Bayes定理可表述为：后验概率 = (相似度*先验概率)/标准化常量，也就是說，后验概率与先验概率和相似度的乘积成正比。另外，比例P(B|A)/P(B)也有时被称作标准相似度（standardised likelihood），Bayes定理可表述为：后验概率 = 标准相似度*先验概率。”

综上，自此便有了一个问题，如何从从条件概率推导贝叶斯定理呢？

根据条件概率的定义，在事件B发生的条件下事件A发生的概率是

同样地，在事件A发生的条件下事件B发生的概率

整理与合并这两个方程式，我们可以找到

这个引理有时称作概率乘法规则。上式两边同除以P(B)，若P(B)是非零的，我们可以得到贝叶斯定理：

2.2、随机变量及其分布

2.2.1、何谓随机变量

何谓随机变量？即给定样本空间，其上的实值函数称为(实值)随机变量。

如果随机变量

的取值是有限的或者是可数无穷尽的值 ,则称

为离散随机变量( 用白话说，此类随机变量是间断的)。

如果

由全部实数或者由一部分区间组成，则称

为连续随机变量，连续随机变量的值是不可数及无穷尽的( 用白话说，此类随机变量是连续的，不间断的)：

也就是说，随机变量分为离散型随机变量，和连续型随机变量，当要求随机变量的概率分布的时候，要分别处理之，如：

针对离散型随机变量而言，一般以加法的形式处理其概率和；
而针对连续型随机变量而言，一般以积分形式求其概率和。

再换言之，对离散随机变量用求和得全概率，对连续随机变量用积分得全概率。这点包括在第4节中相关期望.方差.协方差等概念会反复用到，望读者注意之。

2.2.2、离散型随机变量的定义

定义：取值至多可数的随机变量为离散型的随机变量。概率分布(分布律)为

且

(一)（0-1）分布

若X的分布律为：

同时，p+q=1,p>0,q>0，则则称X服从参数为p的0-1分布，或两点分布。

此外，（0-1）分布的分布律还可表示为：

或

我们常说的抛硬币实验便符合此（0-1）分布。

(二)、二项分布

二项分布是n个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是，独立重复地抛n次硬币，每次只有两个可能的结果：正面，反面，概率各占1/2。

设A在n重贝努利试验中发生X次，则

并称X服从参数为p的二项分布，记为：

与此同时，

(三)、泊松分布(Poisson分布)

Poisson分布（法语：loi de Poisson，英语：Poisson distribution），即泊松分布，是一种统计与概率学里常见到的离散概率分布，由法国数学家西莫恩·德尼·泊松（Siméon-Denis Poisson）在1838年时发表。

若随机变量X的概率分布律为

称X服从参数为λ的泊松分布，记为：

有一点提前说一下，泊松分布中，其数学期望与方差相等，都为参数λ。

泊松分布的来源

在二项分布的伯努力试验中，如果试验次数n很大，二项分布的概率p很小，且乘积λ= n p比较适中，则事件出现的次数的概率可以用泊松分布来逼近。事实上，二项分布可以看作泊松分布在离散时间上的对应物。证明如下。

首先，回顾e的定义：

二项分布的定义：

如果令

，

趋于无穷时

的极限：

上述过程表明：Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布。

最大似然估计

给定n个样本值ki，希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数：

对函数L取相对于λ的导数并令其等于零：

解得λ从而得到一个驻点（stationary point）：

检查函数L的二阶导数，发现对所有的λ 与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点：

证毕。OK，上面内容都是针对的离散型随机变量，那如何求连续型随机变量的分布律呢？请接着看以下内容。

2.2.3、随机变量分布函数定义的引出

实际中，如上2.2.2节所述，

对于离散型随机变量而言，其所有可能的取值可以一一列举出来，
可对于非离散型随机变量，即连续型随机变量X而言，其所有可能的值则无法一一列举出来，

故连续型随机变量也就不能像离散型随机变量那般可以用分布律来描述它，那怎么办呢( 事实上，只有因为连续，所以才可导，所以才可积分，这些东西都是相通的。当然了，连续不一定可导，但可导一定连续)？

既然无法研究其全部，那么我们可以转而去研究连续型随机变量所取的值在一个区间（x1，x2] 的概率：P{x1 < X <=x2 }，同时注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1}，故要求P{x1 < X <=x2 } ，我们只需求出P{X <=x2} 和 P{X <=x1} 即可。

针对随机变量X，对应变量x，则P(X<=x) 应为x的函数。如此，便引出了分布函数的定义。

定义：随机变量X，对任意实数x，称函数F(x) = P(X <=x ) 为X 的概率分布函数，简称分布函数。

F(x)的几何意义如下图所示：

且对于任意实数x1，x2（x1<x2），有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1)。

同时，F(X)有以下几点性质：

2.2.4、连续型随机变量及其概率密度

定义：对于随机变量X的分布函数F(x)，若存在非负的函数f(x)，使对于任意实数x，有：

则称X为连续型随机变量，其中f(x)称为X的概率密度函数，简称概率密度。连续型随机变量的概率密度f(x)有如下性质：

（针对上述第3点性质，我重点说明下：

在上文第1.4节中，有此牛顿-莱布尼茨公式：如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则；
在上文2.2.3节，连续随机变量X 而言，对于任意实数a，b（a<b），有P{a<X<=b} = P{X <=b} - P{X <= a} = F(b) - F(a)；

故结合上述两点，便可得出上述性质3）

且如果概率密度函数

在一点

上连续，那么累积分布函数可导，并且它的导数：

。如下图所示：

接下来，介绍三种连续型随机变量的分布，由于均匀分布及指数分布比较简单，所以，一图以概之，下文会重点介绍正态分布。

(一)、均匀分布

若连续型随机变量X具有概率密度

则称X 在区间(a，b)上服从均匀分布，记为X~U（a，b）。

易知，f(x) >= 0，且其期望值为（a + b）/ 2。

(二)、指数分布

若连续型随机变量X 的概率密度为

其中λ>0为常数，则称X服从参数为λ的指数分布。记为

(三)、正态分布

在各种公式纷至沓来之前，我先说一句：正态分布没有你想的那么神秘，它无非是研究误差分布的一个理论，因为实践过程中，测量值和真实值总是存在一定的差异，这个不可避免的差异即误差，而误差的出现或者分布是有规律的，而正态分布不过就是研究误差的分布规律的一个理论。

OK，若随机变量

服从一个位置参数为

、尺度参数为

的概率分布，记为：

则其概率密度函数为

我们便称这样的分布为正态分布或高斯分布，记为：

正态分布的数学期望值或期望值等于位置参数

，决定了分布的位置；其方差

的开平方，即标准差

等于尺度参数，决定了分布的幅度。正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线。它有以下几点性质，如下图所示：

正态分布的概率密度曲线则如下图所示：

当固定尺度参数

，改变位置参数

的大小时，f(x)图形的形状不变，只是沿着x轴作平移变换，如下图所示：

而当固定位置参数

，改变尺度参数

的大小时，f(x)图形的对称轴不变，形状在改变，越小，图形越高越瘦，越大，图形越矮越胖。如下图所示：

故有咱们上面的结论，在正态分布中，称μ为位置参数(决定对称轴位置)，而 σ为尺度参数(决定曲线分散性)。同时，在自然现象和社会现象中，大量随机变量服从或近似服从正态分布。

而我们通常所说的标准正态分布是位置参数

, 尺度参数

的正态分布，记为：

相关内容如下两图总结所示( 来源：大嘴巴漫谈数据挖掘)：

2.2.5、各种分布的比较

上文中，从离散型随机变量的分布：（0-1）分布、泊松分布、二项分布，讲到了连续型随机变量的分布：均匀分布、指数分布、正态分布，那这么多分布，其各自的期望.方差(期望方差的概念下文将予以介绍)都是多少呢？虽说，还有不少分布上文尚未介绍，不过在此，提前总结下，如下两图所示( 摘自盛骤版的概率论与数理统计一书后的附录中)：

本文中，二维.多维随机变量及其分布不再论述。

第三节、从数学期望、方差、协方差到中心极限定理

3.1、数学期望、方差、协方差

3.1.1、数学期望

如果X是在概率空间（Ω, P）中的一个随机变量，那么它的期望值E[X]的定义是：

并不是每一个随机变量都有期望值的，因为有的时候这个积分不存在。如果两个随机变量的分布相同，则它们的期望值也相同。

在概率论和统计学中，数学期望分两种( 依照上文第二节相关内容也可以得出)，一种为离散型随机变量的期望值，一种为连续型随机变量的期望值。

一个离散性随机变量的期望值（或数学期望、或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。换句话说，期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。

例如，掷一枚六面骰子，得到每一面的概率都为1/6，故其的期望值是3.5，计算如下：

承上，如果X 是一个离散的随机变量，输出值为x1, x2, ...，和输出值相应的概率为p1, p2, ...（概率和为1），若级数

绝对收敛，那么期望值E[X]是一个无限数列的和：

上面掷骰子的例子就是用这种方法求出期望值的。

而对于一个连续型随机变量来说，如果X的概率分布存在一个相应的概率密度函数f（x），若积分绝对收敛，那么X 的期望值可以计算为：

实际上，此连续随机型变量的期望值的求法与离散随机变量的期望值的算法同出一辙，由于输出值是连续的，只不过是把求和改成了积分。

3.1.2、方差与标准差

方差

在概率论和统计学中，一个随机变量的方差（Variance）描述的是它的离散程度，也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差，恰巧也是它的二阶累积量。方差的算术平方根称为该随机变量的标准差。

其定义为：如果

是随机变量X的期望值（平均数）设为服从分布

的随机变量，则称

为随机变量或者分布的方差：

其中， μ为平均数，N为样本总数。

分别针对离散型随机变量和连续型随机变量而言，方差的分布律和概率密度如下图所示：

标准差

标准差（Standard Deviation），在概率统计中最常使用作为统计分布程度（statistical dispersion）上的测量。标准差定义为方差的算术平方根，反映组内个体间的离散程度。

简单来说，标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差，代表大部分的数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。例如，两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ，但第二个集合具有较小的标准差。

前面说过，方差的算术平方根称为该随机变量的标准差，故一随机变量的标准差定义为：

须注意并非所有随机变量都具有标准差，因为有些随机变量不存在期望值。如果随机变量

为

具有相同概率，则可用上述公式计算标准差。

上述方差.标准差等相关内容，可用下图总结之：

样本标准差

在真实世界中，除非在某些特殊情况下，找到一个总体的真实的标准差是不现实的。大多数情况下，总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。说白了，就是数据海量，想计算总体海量数据的标准差无异于大海捞针，那咋办呢？抽取其中一些样本作为抽样代表呗。

而从一大组数值

当中取出一样本数值组合

，进而，我们可以定义其样本标准差为：

样本方差

是对总体方差

的无偏估计。

中分母为 n-1 是因为

的自由度为n-1( 且慢，何谓自由度？简单说来，即指样本中的n个数都是相互独立的，从其中抽出任何一个数都不影响其他数据，所以自由度就是估计总体参数时独立数据的数目，而平均数是根据n个独立数据来估计的，因此自由度为n) ，这是由于存在约束条件

。

3.1.3、协方差与相关系数

协方差

下图即可说明何谓协方差，同时，引出相关系数的定义：

相关系数

如上篇kd树blog所述相关系数 ( Correlation coefficient )的定义是：

(其中，E为数学期望或均值，D为方差，D开根号为标准差，E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差，记为Cov(X,Y)，即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]}，而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数，记为)
相关系数衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1,1]。相关系数的绝对值越大，则表明X与Y相关度越高。当X与Y线性相关时，相关系数取值为1（正线性相关）或-1（负线性相关）。
具体的，如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解：

当相关系数为0时，X和Y两变量无关系。
当X的值增大（减小），Y值增大（减小），两个变量为正相关，相关系数在0.00与1.00之间。
当X的值增大（减小），Y值减小（增大），两个变量为负相关，相关系数在-1.00与0.00之间。

根据相关系数，相关距离可以定义为：

这里只对相关系数做个简要介绍，欲了解机器学习中更多相似性距离度量表示法，可以参看上篇 kd树blog第一部分内容。

自此，已经介绍完期望方差协方差等基本概念，但一下子要读者接受那么多概念，怕是有难为读者之嫌，不如再上几幅图巩固下上述相关概念吧( 来源：大嘴巴满谈数据挖掘)：

3.1.4、协方差矩阵与主成成分分析

协方差矩阵

由上，我们已经知道：协方差是衡量两个随机变量的相关程度。且随机变量之间的协方差可以表示为

故根据已知的样本值可以得到协方差的估计值如下：

可以进一步地简化为：

如此，便引出了所谓的协方差矩阵：

主成成分分析

尽管从上面看来，协方差矩阵貌似很简单，可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵，这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看，也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis，简称PCA)，在图像处理中称为Karhunen-Loève 变换(KL-变换)。

根据wikipedia上的介绍，主成分分析PCA由卡尔·皮尔逊于1901年发明，用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解，以得出数据的主成分（即特征矢量）与它们的权值（即特征值）。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释：哪一个方向上的数据值对方差的影响最大。

然为何要使得变换后的数据有着最大的方差呢？我们知道，方差的大小描述的是一个变量的信息量，我们在讲一个东西的稳定性的时候，往往说要减小方差，如果一个模型的方差很大，那就说明模型不稳定了。但是对于我们用于机器学习的数据（主要是训练数据），方差大才有意义，不然输入的数据都是同一个点，那方差就为0了，这样输入的多个数据就等同于一个数据了。

简而言之，主成分分析PCA，留下主成分，剔除噪音，是一种降维方法，限高斯分布，n维眏射到k维，

减均值，
求特征协方差矩阵，
求协方差的特征值和特征向量，
取最大的k个特征值所对应的特征向量组成特征向量矩阵，
投影数据=原始样本矩阵x特征向量矩阵。其依据为最大方差，最小平方误差或坐标轴相关度理论，及矩阵奇异值分解SVD（即SVD给PCA提供了另一种解释）。

也就是说，高斯是0均值，其方差定义了信噪比，所以 PCA是在对角化低维表示的协方差矩阵 ，故某一个角度而言，只需要理解方差、均值和协方差的物理意义，PCA就很清晰了。

再换言之，PCA提供了一种降低数据维度的有效办法；如果分析者在原数据中除掉最小的特征值所对应的成分，那么所得的低维度数据必定是最优化的（也即，这样降低维度必定是失去讯息最少的方法）。主成分分析在分析复杂数据时尤为有用，比如人脸识别。

3.2、中心极限定理

本节先给出现在一般的概率论与数理统计教材上所介绍的2个定理，然后简要介绍下中心极限定理的相关历史。

3.2.1、独立同分布的中心极限定理

独立中心极限定理如下两图所示：

3.2.2、棣莫弗-拉普拉斯中心极限定理

此外，据wikipedia上的介绍，包括上面介绍的棣莫弗-拉普拉斯定理在内，历史上前后发展了三个相关的中心极限定理，它们得出的结论及内容分别是：

棣莫弗－拉普拉斯（de Movire - Laplace）定理是中心极限定理的最初版本，讨论了服从二项分布的随机变量序列。

其内容为：若是n次伯努利实验中事件A出现的次数，，则对任意有限区间：
(i)当及时，一致地有

(ii)当时，一致地有，
，其中。

它指出，参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。

林德伯格－列维（Lindeberg-Levy）定理，是棣莫佛－拉普拉斯定理的扩展，讨论独立同分布随机变量序列的中心极限定理。

其内容为：设随机变量独立同分布，且具有有限的数学期望和方差，。
记，，则，其中是标准正态分布的分布函数。

它表明，独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限。

林德伯格－费勒定理，是中心极限定理的高级形式，是对林德伯格－列维定理的扩展，讨论独立，但不同分布的情况下的随机变量和。

其内容为：记随机变量序列（独立但不一定同分布，且有有限方差）部分和为

记

，

如果对每个，序列满足

则称它满足林德伯格（Lindeberg）条件。
满足此条件的序列趋向于正态分布，即

与之相关的是李雅普诺夫（Lyapunov）条件：

满足李雅普诺夫条件的序列必满足林德伯格条件。

它表明，满足一定条件时，独立，但不同分布的随机变量序列的标准化和依然以标准正态分布为极限。

3.2.3、历史

1776年，拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题，最终的问题涉及独立随机变量求和的概率计算，也就是计算如下的概率值
令 Sn=X1+X2+⋯+Xn, 那么

在这个问题的处理上，拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧，他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法，而这一方法经过几代概率学家的发展，在现代概率论里面占有极其重要的位置。基于这一分析方法，拉普拉斯通过近似计算，在他的1812年的名著《概率分析理论》中给出了中心极限定理的一般描述：

[ 定理Laplace，1812]设 ei(i=1,⋯n)为独立同分布的测量误差，具有均值μ和方差σ2。如果λ1,⋯,λn为常数，a>0,则有

这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了，在现在大学本科的教材上，包括包括本文主要参考之一盛骤版的概率论与数理统计上，通常给出的是中心极限定理的一般形式：

[ Lindeberg-Levy中心极限定理] 设X1,⋯,Xn独立同分布，且具有有限的均值μ和方差σ2，则在n→∞时,有

多么奇妙的性质，随意的一个概率分布中生成的随机变量，在序列和(或者等价的求算术平均)的操作之下，表现出如此一致的行为，统一的规约到正态分布。

概率学家们进一步的研究结果更加令人惊讶，序列求和最终要导出正态分布的条件并不需要这么苛刻，即便X1,⋯,Xn并不独立，也不具有相同的概率分布形式，很多时候他们求和的最终归宿仍然是正态分布。

在正态分布、中心极限定理的确立之下，20世纪之后，统计学三大分布χ2分布、t分布、F分布也逐步登上历史舞台：

如上所述，中心极限定理的历史可大致概括为：

中心极限定理理的第一版被法国数学家棣莫弗发现，他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布；
1812年，法国数学家拉普拉斯在其巨著 Théorie Analytique des Probabilités中扩展了棣莫弗的理论，指出二项分布可用正态分布逼近；
1901年，俄国数学家李雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。

如今，中心极限定理被认为是(非正式地)概率论中的首席定理。

第四节、从数理统计简史中看正态分布的历史由来

本节将结合数理统计学简史一书，从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题，有详有略，其中，重点阐述正态分布的历史由来。

相信，你我可以想象得到，我们现在眼前所看到的正态分布曲线虽然看上去很美，但数学史上任何一个定理的发明几乎都不可能一蹴而就，很多往往经历了几代人的持续努力。因为在科研上诸多观念的革新和突破是有着很多的不易的，或许某个定理在某个时期由某个人点破了，现在的我们看来一切都是理所当然，但在一切没有发现之前，可能许许多多的顶级学者毕其功于一役，耗尽一生，努力了几十年最终也是无功而返。

如上文前三节所见，现在概率论与数理统计的教材上，一上来介绍正态分布，然后便给出其概率密度分布函数，却从来没有说明这个分布函数是通过什么原理推导出来的。如此，可能会导致你我在内的很多人一直搞不明白数学家当年是怎么找到这个概率分布曲线的，又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布，却对这个分布的来龙去脉知之甚少。

本文接下来的第四节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今生”为你揭开正态分布的神秘面纱。

4.1、正态分布的定义

上文中已经给出了正态分布的相关定义，咱们先再来回顾下。如下两图所示（来源：大嘴巴漫谈数据挖掘）：

相信，经过上文诸多繁杂公式的轰炸，读者或有些许不耐其烦，咱们接下来讲点有趣的内容：历史。下面，咱们来结合数理统计简史一书，即正态分布的前世今生系列，从古至今论述正态分布的历史由来。

4.2、早期概率论：从萌芽到推测术

4.2.1、惠更新的三个关于期望的定理

(一)惠更新的论赌博的计算

所谓概率，即指一个事件发生，一种情况出现的可能性大小的数量指标，介于0和1之间，这个概念最初形成于16世纪，说来可能令你意想不到，凡事无绝对，早期很多概率论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动有着不可分割的联系，可以说，这些赌博活动反而推动了概率论的早期发展。

历史是纷繁多杂的，咱们从惠更斯的机遇的规律一书入手，此人指导过微积分的奠基者之一的莱布尼兹学习数学，与牛顿等人也有交往，终生未婚。如诸多历史上有名的人物一般，他们之所以被后世的人们记住，是因为他们在某一个领域的杰出贡献，这个贡献可能是提出了某一个定理或者公式，换句话来说，就是现今人们口中所说的代表作，一个意思。

而惠更新为当代人们所熟知的应该是他在《摆式时钟或用于时钟上的摆的运动的几何证明》、《摆钟》等论文中提出了物理学史上钟摆摆动周期的公式：

。

(二)创立数学期望

与此同时，惠更斯1657年发表了《论赌博中的计算》，被认为是概率论诞生的标志。同时对二次曲线、复杂曲线、悬链线、曳物线、对数螺线等平面曲线都有所研究。

《论赌博中的计算》中，惠更斯先从关于公平赌博值的一条公理出发，推导出有关数学期望的三个基本定理，如下述内容所示：

公理：每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数。

对这一公理至今仍有争议。所谓公平赌注的数额并不清楚,它受许多因素的影响。但惠更斯由此所得关于数学期望的3 个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率。在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反。
关于数学期望的三个命题为:

命题1 　若某人在赌博中以等概率1/2获得赌金a元、b元，则其数学期望值为：a*1/2+b*1/2，即为( a + b)/2；
命题2 　若某人在赌博中以等概率1/3获得赌金a 、b 元和c元，则其数学期望值为( a + b + c)/3元；
命题3 　若某人在赌博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 获得赌金a元、b元，则获得赌金的数学期望值为p*a + q*b 元。

这些今天看来都可作为数学期望定义，不准确的说，数学期望来源于取平均值。同时，根据上述惠更斯的3个命题不难证明：若某人在赌博中分别以概率p1...，pk（p1+..+pk=1）分别赢得a1，..ak元，那么其期望为p1*a1+...+pk*ak，这与本文第一节中关于离散型随机变量的期望的定义完全一致( 各值与各值概率乘积之和)。

但惠更新关于概率论的讨论局限于赌博中，而把概率论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利，他在惠更新的论赌博中的计算一书出版的56年，即1733年出版了划时代的著作：推测术。伯努利在此书中，不仅对惠更斯的关于掷骰子等赌博活动中出现的额各种情况的概率进行了计算，而且还提出了著名的“大数定律”，这个定律在历史上甚至到今天，影响深远，后续诸多的统计方法和理论都是建立在大数定律的基础上。

(三) 伯努利的大数定律及其如何而来

同样，咱们在读中学的时候，之所以记住了伯努利这个人，恐怕是因为物理课上，老师所讲的伯努利方程

C，(C为常量)。我当时的物理老师叫刘新见，记得他在讲伯努利方程的时候，曾开玩笑说，“’伯努利‘好记好记，‘白努力‘嘛”。

当然，伯努利的贡献不仅在此，而在于他的大数定律。那何谓伯努利大数定律呢？

设在n次独立重复试验中，事件X发生的次数为

。事件X在每次试验中发生的概率为P。则对任意正数，下式成立：

定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性。就是说当n很大时，事件发生的频率于概率有较大偏差的可能性很小。

这个定理如何而来的呢？

咱们来看一个简单的袋中抽球的模型，袋中有a个白球，b个黑球，则从袋中取出白球的概率为p=a/(a+b)，有放回的充袋中抽球N次(每次抽取时保证袋中a+b个球的每一个都有同等机会被抽出)，记得抽到的白球的次数为X，然后以X/N 这个值去估计p，这个估计方法至今仍是数理统计学中最基本的方法之一。

伯努利试图证明的是：用X/N 估计p 可以达到事实上的确定性，即：任意给定两个数 ε>0和 η>0，取足够大的抽取次数N，使得事件

的概率不超过 η，这意思是

，表面估计误差未达到制定的接近程度 η。

换句话说，我们需要证明的是当N充分无限大时，X/N 无限逼近于p，用公式表达即为：

（N趋于无穷大）

尽管现在我们看来，上述这个结论毫无疑问是理所当然的，但直到1909年才有波莱尔证明。此外，此伯努利大数定律是我们今天所熟知的契比雪夫不等式的简单推论，但须注意的是在伯努利那个时代，并无“方差”这个概念，更不用说从这个不等式而推论出伯努利大数定律了。

此外，常用的大数定律除了伯努利大数定律之外，还有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律。这里稍微提下辛钦大数定律，如下图所示。

在1733年，棣莫弗发展了用正态分布逼近二项分布的方法，这对于当时而言，是一实质性的深远改进。

4.3、棣莫弗的二项概率逼近

同上文中的惠更新，伯努利一样，人们熟悉棣莫弗，想必是因为著名的棣莫弗公式，如下：

据数理统计学简史一书上的说明，棣莫弗之所以投身到二项概率的研究，非因伯努利之故，而又是赌博问题 (赌博贡献很大丫哈)。有一天一个哥们，也许是个赌徒，向棣莫弗提了一个和赌博相关的一个问题：A,B两人在赌场里赌博，A,B各自的获胜概率是p和q=1−p，赌n局，若A赢的局数X>np，则A付给赌场X−np元，否则B付给赌场np−X元。问赌场挣钱的期望值是多少？按定义可知，此期望值为：