【4】机器学习之坚如磐石:大数定理和中心极限定理

转载 2016年06月01日 09:02:33

泰勒展开式


作者:张雨萌
链接:https://www.zhihu.com/question/22913867/answer/34376453
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

试图从另一个角度给出一个还算启发性的答案。

题主学过微积分的泰勒展开吧,对一个连续可导的函数,在一点局部我们认为这个函数可以用线性函数来拟合,从而有
f(x)\approx f(x_0)+f'(x_0)(x-x_0)+o(x-x_0).
这里面f(x_0) 是零阶项,f'(x_0)(x-x_0)是一阶修正,o(x-x_0)是高阶小量。

与此对应,我们可以试着对随机变量的进行“局部的泰勒展开”。假设X_1,X_2,\dots是独立同分布的变量,那么根据大数定律和中心极限定理,我们有
X_1+X_2+\cdots+X_n\approx n\cdot\mathbb{E} X_1+\sqrt{n}\,\mathrm{std}(X_1)\cdot \mathcal{N}(0,1)+o_p(\sqrt{n}\,\mathrm{std}(X_1)).
其中期望\mathbb{E}X_1对应f(x_0) ,标准差\mathrm{std}(X_1)对应一阶导f'(x_0),标准正态分布\mathcal{N}(0,1)对应线性函数x-x_0o_p(\sqrt{n}\,\mathrm{std}(X_1))是概率意义下的高阶小量。

通过这个类比我们可以这样理解大数定律和中心极限定理:
1、大数定律和中心极限定理可以看做随机变量的零阶和一阶“泰勒展开”,其中大数定律是随机变量的“零阶估计”,中心极限定理是在大数定律成立下的“一阶导数”,在极限下高阶小量可忽略。
2、大数定律负责给出估计——期望,中心极限定理负责给出大数定律的估计的误差——标准差乘以标准正态分布。
3、通过泰勒展开我们可以对中心极限定理的应用范围有一个直观的估计。为了使泰勒展开成立,我们假设了高阶小量o_p(\sqrt{n}\,\mathrm{std}(X_1))在取平均(除以n后)是可以忽略的。为了使这一点成立,我们至少需要样本量和方差在同一量级上或者更小。
4、其实我们还可以进行更高阶的展开,貌似三阶展开对应的统计量叫做skewness,wiki上常用分布的词条都会给出这一数值。不过实际应用中中心极限定理已经足够,所以通常也就不需要了。


作者:煦超
链接:https://www.zhihu.com/question/22913867/answer/32711413
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

教授这周刚讲完这两个定理。先说中心极限定理。
中心极限定理:
大量相互独立的随机变量,其均值(或者和)的分布以正态分布为极限(意思就是当满足某些条件的时候,比如Sample Size比较大,采样次数区域无穷大的时候,就越接近正态分布)。而这个定理amazing的地方在于,无论是什么分布的随机变量,都满足这个定理。

比如现在有一个奇形怪状的六面骰子,并且六面上的点数分别为1,1,2,3,3,5。
我们现在开始掷这个骰子(可视为一个随机过程),然后记录下每次朝上的点数(每次扔骰子可视为一个随机变量)。先扔6次好了。
第一次:
S_{1} = [ 1,1,1,1,2,5]
那么第一次结果的均值
\bar{S} _{1} = \frac{11}{6}

然后你再掷五次,分别求得每次结果的均值,于是你得到了
\bar{S}_{1} ,\bar{S}_{2},\bar{S}_{3}, \bar{S}_{4},\bar{S}_{5},\bar{S}_{6}
现在神奇的地方是,这六个值的分布,有点像是正态分布。

然后你再继续疯狂的掷这个奇形怪状的骰子,掷了n次,并且分别对每次的结果都求了均值,这时候你得到了
\bar{S}_{1} ,\bar{S}_{2},\bar{S}_{3},...\bar{S}_{n}
当n越大,这n个值的分布就越接近正态分布,而当n趋向正无穷时,这无穷个均值的分布就是正态分布了!并且!这还没有结束!!
并且!这个正态分布的均值\mu 投掷奇形怪状骰子并记录朝上的点数这个随机过程的均值是一!样!的!
这样,因为我们没有办法得到这个奇形怪状骰子的分布函数,就没有办法直接通过求期望的公式得到这个随机过程的期望。而运用中心极限定理,我们就能够得到这个随机过程的期望了。

大数定理
简单的可以描述为,如果有一个随机变量X,你不断的观察并且采样这个随机变量,得到了n个采样值,X_{1} , X_{2} , X_{3}....X_{n},然后求得这n个采样值得平均值\bar{X_{n}} ,当n趋向于正无穷的时候,这个平均值就收敛于这个随机变量X的期望。
公式为
\lim_{n \rightarrow \infty } \frac{1}{n}\sum_{i=1}^{n}{X_{i}} =\mu
举个例子。
比如你有一个盒子,盒子里面有100个硬币,你每次摇晃盒子然后数一数有多少硬币正面朝上。很容易算出这个随机变量的期望为50。
第一次摇,数出有55个硬币正面朝上,\bar{X_{n}} =55
第二次摇,数出有65个硬币正面朝上,\bar{X_{n}} =(55+65)/2=60
第三次摇,数出有70个硬币正面朝上,\bar{X_{n}} =(55+65+70)/3=
…………
当你摇的次数足够多(无数次)时,最终这个平均值\bar{X_{n}} 就会等于50。

相关文章推荐

中心极限定理以及其和大数定律的区别

一.中心极限定理 下图形象的说明了中心极限定理 当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均...

教你如何迅速秒杀掉:99%的海量数据处理面试题

教你如何迅速秒杀掉:99%的海量数据处理面试题作者:July出处:结构之法算法之道blog前言   一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步...

常用的排序算法的时间复杂度和空间复杂度

常用的排序算法的时间复杂度和空间复杂度排序法 最差时间分析平均时间复杂度 稳定度 空间复杂度 冒泡排序O(n2)O(n2) 稳定 O(1) 快速排序O(n2)O(n*log2n) 不稳定 O(log2...

【4】深度学习之百家争鸣:产业链

原文戳这里 提及人工智能,不知你是否想到的还是AlphaGo大战李世石的那一场大戏,不知你是否在为科幻电影中的脑洞感到恐惧? 事实上,人工智能没有你想的那么强,也没有那么不接地气。当前人工...

中心极限定理与大数定律

Central limit theorem: We could be talking about melocular interactions and every ti,e compound x i...

中心极限定理的证明

中心极限定理是作为概率论的基础定理,然而很多教科书都没有给出完整证明或引证出处,严重影响到了学习的乐趣。 - 中心极限定理: 设随机变量x1,x2,x3…xn相互独立且满足同一分布,则随机变量...

大数定律&中心极限定理

来自:百度百科   大数定律:     ---------------------------------------------------------------------------...

第五章 大数定律与中心极限定理

第五章 大数定律与中心极限定理一、车比雪夫不等式定理 设 XX 为随机变量,且存在有限的 DXDX,则对 ∀ε>0\forall \varepsilon > 0 ,有 P{|X−EX|⩾ε}⩽DX(...

【3】机器学习之华山论剑:贝叶斯方法

贝叶斯方法=斯奥卡姆剃刀*极大似然估计 机器翻译,语音识别,语义识别 Siri=机器学习+云计算(即巨大的语料库用来统计先验概率) 从朴素贝叶斯方法到隐含马尔科夫模型再到贝叶斯网络 概率论只...

大数定律和中心极限定理

第六章 大数定律和中心极限定理   6.1切比雪夫不等式 切比雪夫不等式:在知道了随机变量的数学期望和方差之后,我们就可以对随变量有一个估计。切比雪夫不等式联系起了期望和方差。随机变量和期望的差...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)