中心极限定理_科普:什么是中心极限定理

全文共1222字,预计学习时长4分钟

9c759fca77280e967165a2ef388ee15c.png

来源:Pexels

数据科学家必须了解的事:中心极限定理。你了解吗?

编码之前,快速回顾

今天,我想重构中心极限定理(CentralLimit Theorem),以及该定理与数据科学家的大量工作之间的关系。

回顾直方图

首先,对于任何数据科学家来说,核心工具都是直方图——一种非常简单的图表。虽然我们肯定会看到许多直方图,但经常会忽略它的重要性。直方图的核心目的是了解给定数据集的分布。

直方图表示在x轴上找到的变量,其不同值在y轴上出现的次数。

这是一个示例,如果想了解数据集里面每加仑汽油行驶的英里数在汽车总数中的分布。在这里使用 mtcars 数据集,可以在图表的右侧看到一条尾巴,这种直方图就是所谓的右偏。这背后传达的概念是:有些汽车的油耗极高,但这些汽车很少。

83bc9b57359fe96b9841d4300ca2d8e0.png

标准正态分布

与刚才看到的类似,经典分布是正态分布,也叫钟形曲线或标准正态分布。其核心概念是事件的“分布”是“对称的”。

下面的直方图与之前的图类似,而这里的更加对称。

c97700da79a9f36def2e77ba85c7b0a4.png

中心极限定理究竟是什么?

中心极限定理指出,样本均值的分布应近似正态。

实践中的定理

请看下面的例子:假设你在大学工作,并且想了解校友离开学校第一年的收入分配情况。

事实是你将无法向每个校友收集该数据点。或者,你可以对总体进行多次采样,以获取每个“样本”的单独样本均值。

现在,通过直方图绘制样本均值,可以看到正态分布的出现。

这里的关键要点是,即使输入变量不是正态分布的,采样分布也将近似于标准正态分布。

编码!

作为该想法的最后一个演示,首先从mtcars数据集里得出并绘制了MPG的分布。在这里,为每个mpg样本划分一个向量,遍历50个样本。每个样本取数据集里10条随机记录的平均值。再次将它们绘制为直方图,这样可以看到正态分布出现。

mpg_samples 
44e0ae6bf719e7723e07b9ee05f73450.png

中心极限定理作为数据科学培训中的基础概念。该定理是假设检验、实验以及其他数据科学方法和技术的基础。

也是你必须了解和掌握的事物。

3d2c6273c47be0ccb5f81104d844dd05.png

来源:Pexels

感谢阅读,希望本文对你有所帮助!

a07782a1abd4cc6c9249b20023af6991.png

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值