全文共2431字,预计学习时长8分钟
图源:Pawanpreet
随着人类进入先进的超级智能技术时代,一些领域正以前所未有的速度蓬勃发展。数据科学就是其中一个。
该领域最常使用的就是中心极限定理(CLT)中既基本又深奥的概念。当我开始探索数据科学时,我开始想:CLT的炒作是否是真的?这真的是一个惊人的发现吗?
当我开始越来越深入地研究这个领域时,我找到了这个问题的答案,本文将与你分享结论。为了得到答案,我们要先理解什么是CLT以及它所表达的内容。阅读本文不需要任何深入的统计知识,知道均值、方差和标准差就可以开始了。
什么是总体?
假设想知道一个印度成年人的平均工资是多少。去询问每一个印度成年人,即大约7.7亿人,并计算他们的平均工资。在这种情况下,观察的是整个“总体”,没有遗漏任何一个人。可以说总体包含了构成一组数据的所有可能元素。
总体的可测量特征,如均值或标准差,称为参数。表示总体均值,表示总体标准差。
什么是样本?
既然已经定义了什么是总体,就不需要解释为什么在实际情况下观察整个总体是不可能的。了解总体的最好方法是从总体中随机抽取一些人。这些人被称为样本。
之所以把重点放在“随机”这个词上,是因为样本中所有n个对象被选中的可能性都是相等的,这一点至关重要。
想象一下,如果样本由一群在谷歌、微软、Facebook等公司工作的软件工程师组成。这将不能准确地代表整个总体。这样会得到一个偏态样本,这种情况是不可取的。
样本的可测量特征,如均值或标准差,称为统计量。X̄表示样本均值,S表示样本标准差。
正态分布
接着来介绍构成CLT基础的最重要的概念了:
正态分布:在现实生活中,数据科学家要处理大量的数据。将数据绘制在图上可以很容易地理解和定义测量其属性(均值、方差等)的方法。
为了理解正态分布,必须理解如何绘制相对频率图形。下面的柱状图是在美国随机抽取的200个软件工程师组成的样本。x轴表示以千美元为单位的工资间隔,y轴表示每个间隔的相对频率(或概率)。
需要注意的是,这只适用于小型数据集。当处理具有数百万个条目的较大数据时,间隔会变得越来越小。在某个时刻,间隔变得小到甚至可以看作是一条曲线。来看看下面的动画:
在动画的最后可以看到曲线是某个分布的可视化,其中的数据点可以取任何连续值。这条曲线被称为密度曲线,这种分布被称为正态分布(或高斯分布或钟形曲线)。
正态分布的许多特点使得它独一无二且非常有用。宇宙中的很多现象都遵循这个分布。
为了直观地理解为什么这种分布形状是这样的,来看这样一个例子:在一个班级中,分数很低的学生很少,分数很高的学生也很少。学生的分数是正态分布的。在许多其他情况下,异常高或异常低的值(称为离群值)很少,而大多数数据是对称分布的钟形。
图源:unsplash
正态分布有这样一些重要性质:
· 正态分布关于其均值(µ)对称,表明靠近均值的数据比远离均值的数据更频繁地出现。这就是为什么在图中,正态分布显示为钟形曲线的原因。
μ=均值和σ=标准差
· 对于正态分布的数据集,均值和中位数相等(都等于µ)
· 大约68%的数据位于均值的1个标准差之内
· 大约95%的数据位于均值的2个标准差之内
图源:Pawanpreet
中心极限定理
用一个例子来理解这个定理:
有一个大的数据集:印度的人口。假设要计算印度人的平均身高。由于已经讨论过总体的概念,不能观察每个数据点并计算其均值。可以做的就是从人群中随机抽取5个人作为样本(即从人群中随机抽取5个人并测量他们的身高)。
假设现在有250人正在阅读这篇文章,所有的读者都收集了一个随机样本,样本大小为5。现在有250个样本大小为5的样本。
计算每个样本的均值得到250个样本均值。现在,如果把这250个均值画在一个频率分布上,可得:
通过OnlineStatsBook模拟
我们能看出这趋于正态分布。
另一个有趣的结果是上述样本均值分布的均值(X̄)近似于总体均值()。这意味着,无需分析整个总体,就可以估计总体均值。
如果把每个随机样本的大小从5增加到25,模拟结果是什么:
通过OnlineStatsBook模拟
是的,更趋于正态分布(即数据点与均值的偏差更小)!随着增加单个样本的大小,这种分布变得越来越接近正态。
请注意,没有增加随机样本的数量,即文章的读者数量相同,但是现在每个读者收集的样本大小为25而不是5。每当对任何数据集执行上述步骤时,样本均值的分布将始终保持正态分布。多么奇妙的结果!
上面显示的样本均值分布称为样本均值(X̄)的采样分布。
最终后来模拟图形趋于理想正态分布的情况:
当样本大小增加到10248时,观察左边的“Reps”
从以上结果可以看出,当样本量为25时,样本均值的抽样分布比当样本大小为5时更趋于正态。
CLT的美妙之处在于,它甚至可以用于非正态分布的总体。总体可能看起来是这样的:
或者是你可以想到的任何情况。关键是不需要知道总体的状况,而仍然有能力进行研究。
最后我们来正式认识一下CLT吧。根据Investopedia的研究,中心极限定理(CLT)指出,假设所有样本大小相同,不论总体分布的形状,随着样本大小越大,样本均值的分布近似于正态分布(也称为“钟形曲线”)。
中心极限定理的应用
是时候看看这个发现是如何以及为什么让我们的生活变得如此简单:
1.如果不知道总体分布或是非正态分布 (在大多数情况下都是这样),根据CLT,可以认为抽样分布服从正态分布。该方法假设抽样分布是正态分布的,这有助于用构造置信区间(如何确定某个结果是正确的)等方法分析数据。
2.CLT最常见的应用之一是在选举后的民意调查中。计算新闻中支持某候选人的百分比,即置信区间。
3.为了更准确地估计总体均值,可以增加从总体中抽取的样本,最终减小样本均值偏差。
图源:unsplash
列出每个用例就像数天上的星星一样,别傻了,让统计学来拯救你吧!
一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)