改变世界的统计发现:中心极限定理的伟大是炒作吗?

559 篇文章 5 订阅

全文共2431字,预计学习时长8分钟

改变世界的统计发现:中心极限定理的伟大是炒作吗?

图源:Pawanpreet

随着人类进入先进的超级智能技术时代,一些领域正以前所未有的速度蓬勃发展。数据科学就是其中一个。

该领域最常使用的就是中心极限定理(CLT)中既基本又深奥的概念。当我开始探索数据科学时,我开始想:CLT的炒作是否是真的?这真的是一个惊人的发现吗?

当我开始越来越深入地研究这个领域时,我找到了这个问题的答案,本文将与你分享结论。为了得到答案,我们要先理解什么是CLT以及它所表达的内容。阅读本文不需要任何深入的统计知识,知道均值、方差和标准差就可以开始了。

改变世界的统计发现:中心极限定理的伟大是炒作吗?

 

什么是总体?

假设想知道一个印度成年人的平均工资是多少。去询问每一个印度成年人,即大约7.7亿人,并计算他们的平均工资。在这种情况下,观察的是整个“总体”,没有遗漏任何一个人。可以说总体包含了构成一组数据的所有可能元素。

总体的可测量特征,如均值或标准差,称为参数。表示总体均值,表示总体标准差。

改变世界的统计发现:中心极限定理的伟大是炒作吗?

 

改变世界的统计发现:中心极限定理的伟大是炒作吗?

 

什么是样本?

既然已经定义了什么是总体,就不需要解释为什么在实际情况下观察整个总体是不可能的。了解总体的最好方法是从总体中随机抽取一些人。这些人被称为样本。

之所以把重点放在“随机”这个词上,是因为样本中所有n个对象被选中的可能性都是相等的,这一点至关重要。

想象一下,如果样本由一群在谷歌、微软、Facebook等公司工作的软件工程师组成。这将不能准确地代表整个总体。这样会得到一个偏态样本,这种情况是不可取的。

样本的可测量特征,如均值或标准差,称为统计量。X̄表示样本均值,S表示样本标准差。

改变世界的统计发现:中心极限定理的伟大是炒作吗?

 

正态分布

接着来介绍构成CLT基础的最重要的概念了:

正态分布:在现实生活中,数据科学家要处理大量的数据。将数据绘制在图上可以很容易地理解和定义测量其属性(均值、方差等)的方法。

为了理解正态分布,必须理解如何绘制相对频率图形。下面的柱状图是在美国随机抽取的200个软件工程师组成的样本。x轴表示以千美元为单位的工资间隔,y轴表示每个间隔的相对频率(或概率)。

改变世界的统计发现:中心极限定理的伟大是炒作吗?

 

需要注意的是,这只适用于小型数据集。当处理具有数百万个条目的较大数据时,间隔会变得越来越小。在某个时刻,间隔变得小到甚至可以看作是一条曲线。来看看下面的动画:

改变世界的统计发现:中心极限定理的伟大是炒作吗?

 

在动画的最后可以看到曲线是某个分布的可视化,其中的数据点可以取任何连续值。这条曲线被称为密度曲线,这种分布被称为正态分布(或高斯分布或钟形曲线)。

正态分布的许多特点使得它独一无二且非常有用。宇宙中的很多现象都遵循这个分布。

为了直观地理解为什么这种分布形状是这样的,来看这样一个例子:在一个班级中,分数很低的学生很少,分数很高的学生也很少。学生的分数是正态分布的。在许多其他情况下,异常高或异常低的值(称为离群值)很少,而大多数数据是对称分布的钟形。

改变世界的统计发现:中心极限定理的伟大是炒作吗?

图源:unsplash

正态分布有这样一些重要性质:

· 正态分布关于其均值(µ)对称,表明靠近均值的数据比远离均值的数据更频繁地出现。这就是为什么在图中,正态分布显示为钟形曲线的原因。

改变世界的统计发现:中心极限定理的伟大是炒作吗?

μ=均值和σ=标准差

· 对于正态分布的数据集,均值和中位数相等(都等于µ)

· 大约68%的数据位于均值的1个标准差之内

· 大约95%的数据位于均值的2个标准差之内

改变世界的统计发现:中心极限定理的伟大是炒作吗?

图源:Pawanpreet

改变世界的统计发现:中心极限定理的伟大是炒作吗?

 

中心极限定理

用一个例子来理解这个定理:

有一个大的数据集:印度的人口。假设要计算印度人的平均身高。由于已经讨论过总体的概念,不能观察每个数据点并计算其均值。可以做的就是从人群中随机抽取5个人作为样本(即从人群中随机抽取5个人并测量他们的身高)。

假设现在有250人正在阅读这篇文章,所有的读者都收集了一个随机样本,样本大小为5。现在有250个样本大小为5的样本。

改变世界的统计发现:中心极限定理的伟大是炒作吗?

 

计算每个样本的均值得到250个样本均值。现在,如果把这250个均值画在一个频率分布上,可得:

改变世界的统计发现:中心极限定理的伟大是炒作吗?

通过OnlineStatsBook模拟

我们能看出这趋于正态分布。

另一个有趣的结果是上述样本均值分布的均值(X̄)近似于总体均值()。这意味着,无需分析整个总体,就可以估计总体均值。

如果把每个随机样本的大小从5增加到25,模拟结果是什么:

改变世界的统计发现:中心极限定理的伟大是炒作吗?

通过OnlineStatsBook模拟

是的,更趋于正态分布(即数据点与均值的偏差更小)!随着增加单个样本的大小,这种分布变得越来越接近正态。

请注意,没有增加随机样本的数量,即文章的读者数量相同,但是现在每个读者收集的样本大小为25而不是5。每当对任何数据集执行上述步骤时,样本均值的分布将始终保持正态分布。多么奇妙的结果!

上面显示的样本均值分布称为样本均值(X̄)的采样分布。

最终后来模拟图形趋于理想正态分布的情况:

改变世界的统计发现:中心极限定理的伟大是炒作吗?

当样本大小增加到10248时,观察左边的“Reps”

从以上结果可以看出,当样本量为25时,样本均值的抽样分布比当样本大小为5时更趋于正态。

CLT的美妙之处在于,它甚至可以用于非正态分布的总体。总体可能看起来是这样的:

改变世界的统计发现:中心极限定理的伟大是炒作吗?

 

或者是你可以想到的任何情况。关键是不需要知道总体的状况,而仍然有能力进行研究。

最后我们来正式认识一下CLT吧。根据Investopedia的研究,中心极限定理(CLT)指出,假设所有样本大小相同,不论总体分布的形状,随着样本大小越大,样本均值的分布近似于正态分布(也称为“钟形曲线”)。

改变世界的统计发现:中心极限定理的伟大是炒作吗?

 

中心极限定理的应用

是时候看看这个发现是如何以及为什么让我们的生活变得如此简单:

1.如果不知道总体分布或是非正态分布 (在大多数情况下都是这样),根据CLT,可以认为抽样分布服从正态分布。该方法假设抽样分布是正态分布的,这有助于用构造置信区间(如何确定某个结果是正确的)等方法分析数据。

2.CLT最常见的应用之一是在选举后的民意调查中。计算新闻中支持某候选人的百分比,即置信区间。

3.为了更准确地估计总体均值,可以增加从总体中抽取的样本,最终减小样本均值偏差。

改变世界的统计发现:中心极限定理的伟大是炒作吗?

图源:unsplash

列出每个用例就像数天上的星星一样,别傻了,让统计学来拯救你吧!

改变世界的统计发现:中心极限定理的伟大是炒作吗?

一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值