【机器学习概率统计】08 极限思维：大数定理与中心极限定理

本文链接：https://blog.csdn.net/m0_52343631/article/details/136227687

1.一个背景话题

本节课我们来介绍概率统计当中的极限思维，我们首先从一个大家都非常熟悉的场景切入来展开我们本节内容的讨论。

比如说，我们想获得本省 15 15 15岁男生的平均身高，这时你会怎么做？显然你不会也不可能真的去统计全省所有15 15 15岁男生的身高，然后再求平均值，这样做不太现实。因此，你会去找一些样本，也就是找一部分本省 15 15 15岁的男生，取他们身高的平均值，用这个样本的平均值去近似的估计所有 15 15 15岁男生的平均身高。

没错，一般就是这么干的，那接下来我再问你，找 100 100 100个样本取得的平均值和 1000 1000 1000个样本所取得的平均值，哪一个你认为更有可能接近真实的全省男生的平均身高（也就是期望）呢？你会说应该是 1000 1000 1000个吧，毕竟样本数量多，上下偏差相互抵消，应该会更接近一些。你的直觉没有错。

在数据分析的应用中，经常会有上述类似的应用场景，我们需要分析一类对象，常常得去获取他的关键参数，就比如上面所提到的全体男生身高的均值，但是现实中我们不可能去穷尽全部的研究对象，而是只能取得一部分的样本，通过计算这部分样本的参数值去近似的估计总体的目标参数，样本数量越大，近似效果越好。

这里的理论依据就是我们下面要详细讲解的大数定理，大数定理是一个非常底层的基础性原理，大量的机器学习理论和算法实际上都建立在这个基础之上。我们常常是理所当然的直觉上感受到他的存在，却很少仔细想过背后的原因。那么通过这节内容，我们会深入透彻的理解大数定理、中心极限定理背后的极限思想，另一方面也为机器学习的后续内容------参数估计打下一个良好的基础。

这一节的内容安排如下：

首先：我们介绍大数定理的原理，并用 p y t h o n python python语言对其进行模拟，给大家一个更直观的感受；

接着：我们会介绍中心极限定理以及他在工程实践中的应用价值和意义，同时也会用 p y t h o n python python语言来对其进行模拟；

最后：我们会讲解大数定理在机器学习和数据分析中的一个重要应用：蒙特卡罗方法，并仔细剖析他的应用场景和内涵。

2.大数定理

2.1.原理介绍

好了，下面我们开始正式进入到大数定理的内容中。

我们有如下的随机变量： X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn，他们彼此之间满足独立同分布，因此他们拥有相同的均值 μ \mu μ和方差 σ 2 \sigma^2 σ2。

此时，我们重点来研究这一组随机变量的均值： M n = X 1 + X 2 + . . . + X n n M_n=\frac{X_1+X_2+...+X_n}{n} Mn=nX1+X2+...+Xn，显然 M n M_n Mn也是一个随机变量。那么， M n M_n Mn的期望和方差就是我们此时重点关心的问题。

首先，我们从期望的定义入手，来观察一下随机变量 M n M_n Mn的期望 E [ M n ] E[M_n] E[Mn]：

E [ M n ] = E [ X 1 + X 2 + . . . + X n n ] E[M_n]=E[ \frac{X_1+X_2+...+X_n}{n}] E[Mn]=E[nX1+X2+...+Xn] = 1 n ( E [ X 1 ] + E [ X 2 ] + . . . + E [ X n ] ) =\frac{1}{n}(E[X_1]+E[X_2]+...+E[X_n]) =n1(E[X1]+E[X2]+...+E[Xn]) = 1 n ⋅ n ⋅ μ = μ = E [ X i ] =\frac{1}{n}\cdot n\cdot \mu=\mu=E[X_i] =n1⋅n⋅μ=μ=E[Xi]

不难发现，一组独立同分布随机变量均值的期望就等于随机变量的期望，这个结论很直观。

下面我们再来看看 M n M_n Mn的方差 v a r [ M n ] var[M_n] var[Mn]：

v a r [ M n ] = v a r [ X 1 + X 2 + . . . + X n n ] var[M_n]=var[ \frac{X_1+X_2+...+X_n}{n}] var[Mn]=var[nX1+X2+...+Xn] = 1 n 2 v a r [ X 1 + X 2 + . . . + X n ] =\frac{1}{n^2}var[X_1+X_2+...+X_n] =n21var[X1+X2+...+Xn] = 1 n 2 ( v a r [ X 1 ] + v a r [ X 2 ] + . . . + v a r [ X n ] ) =\frac{1}{n^2}(var[X_1]+var[X_2]+...+var[X_n]) =n21(var[X1]+var[X2]+...+var[Xn]) = 1 n 2 ⋅ n ⋅ σ 2 = σ 2 n =\frac{1}{n^2}\cdot n\cdot \sigma^2=\frac{\sigma^2}{n} =n21⋅n⋅σ2=nσ2

我们从推导中发现， n n n个独立同分布随机变量的均值的方差，是单一随机变量方差的 1 n \frac{1}{n} n1。没错，均值的方差变小了，并且随机变量 X X X的个数 n n n越多，方差越小，他们的分布更加紧密的围绕在了期望的周围。

特别的，当 n → ∞ n \rightarrow \infty n→∞时，随机变量均值的方差趋近于 0 0 0： v a r [ M n ] = σ 2 n → 0 var[M_n]=\frac{\sigma^2}{n} \rightarrow 0 var[Mn]=nσ2→0。

结合前前后后的一大段推导和论述，我们可以得出这么一个结论：

独立同分布的随机变量 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn，他们的均值 M n M_n Mn的分布会更加接近于实际分布的均值 μ \mu μ，随着样本量 n n n的增大，他逐渐收敛于 μ \mu μ，当 n → ∞ n \rightarrow \infty n→∞时，也就是说当样本量非常大的时候，通过抽样样本计算所得到的平均值可以说就是 E [ X ] E[X] E[X]了。

独立同分布的随机变量序列的样本均值，在大样本的情况下，以很大的概率与随机变量的均值非常接近。这也就是为什么说，当独立同分布的样本数量 n n n充分大