普通概率分布有什么特别之处?为什么这么多数据科学和机器学习文章围绕正态概率分布?
我决定写一篇文章试图以一种易于理解的方式解释正态概率分布的概念。机器学习的世界围绕概率分布,概率分布的核心集中在正态分布上。本文说明了正态分布是什么以及为什么它被广泛使用,特别是对于数据科学家和机器学习专家。我将从基础知识中解释一切,以便读者理解为什么正态分布非常重要文章结构本文将解释:概率分布是什么?什么正态分布意味着什哪些变量表现出正态分布?如何在Python中检查数据集的分布?如何使变量在Python中正常分布?正常问题
照片由TimJ在Unsplash上拍摄
首先是一点背景首先,最重要的一点是正态分布也称为高斯分布。它以Carl Friedrich Gauss天才命名。正态分布也称为高斯分布。最后,需要注意的一点是,简单的预测模型通常是最常用的模型,因为它们可以被解释并且被充分理解。现在补充一点; 正态分布很简单,因此它的简单性使它非常受欢迎。因此,值得了解正态概率分布是什么。但首先,概率分布意味着什么?
让我先解释一下构建适当的构建块。考虑我们可能有兴趣在我们的数据科学项目中构建的预测模型。如果我们想要准确地预测变量,那么我们需要执行的第一项任务就是了解目标变量的基本行为。
我们首先需要做的是确定目标变量的可能结果,以及潜在结果是离散的(不同的值)还是连续的(无限值)。为简单起见,如果我们估计骰子的行为,那么第一步是知道它可以取1到6的任何值(离散)。
然后,下一步是开始为事件(值)分配概率。因此,如果不能发生值,则为其分配概率为0%。概率越高,事件发生的可能性越大。