全文共1222字,预计学习时长4分钟
数据科学家必须了解的事:中心极限定理。你了解吗?
编码之前,快速回顾
今天,我想重构中心极限定理(CentralLimit Theorem),以及该定理与数据科学家的大量工作之间的关系。
回顾直方图
首先,对于任何数据科学家来说,核心工具都是直方图——一种非常简单的图表。虽然我们肯定会看到许多直方图,但经常会忽略它的重要性。直方图的核心目的是了解给定数据集的分布。
直方图表示在x轴上找到的变量,其不同值在y轴上出现的次数。
这是一个示例,如果想了解数据集里面每加仑汽油行驶的英里数在汽车总数中的分布。在这里使用 mtcars 数据集,可以在图表的右侧看到一条尾巴,这种直方图就是所谓的右偏。这背后传达的概念是:有些汽车的油耗极高,但这些汽车很少。
标准正态分布
与刚才看到的类似,经典分布是正态分布,也叫钟形曲线或标准正态分布。其核心概念是事件的“分布”是“对称的”。
下面的直方图与之前的图类似,而这里的更加对称。
中心极限定理究竟是什么?
中心极限定理指出,样本均值的分布应近似正态。
实践中的定理
请看下面的例子:假设你在大学工作,并且想了解校友离开学校第一年的收入分配情况。
事实是你将无法向每个校友收集该数据点。或者,你可以对总体进行多次采样,以获取每个“样本”的单独样本均值。
现在,通过直方图绘制样本均值,可以看到正态分布的出现。
这里的关键要点是,即使输入变量不是正态分布的,采样分布也将近似于标准正态分布。
编码!
作为该想法的最后一个演示,首先从mtcars数据集里得出并绘制了MPG的分布。在这里,为每个mpg样本划分一个向量,遍历50个样本。每个样本取数据集里10条随机记录的平均值。再次将它们绘制为直方图,这样可以看到正态分布出现。
mpg_samples
中心极限定理作为数据科学培训中的基础概念。该定理是假设检验、实验以及其他数据科学方法和技术的基础。
也是你必须了解和掌握的事物。
感谢阅读,希望本文对你有所帮助!
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范