目录
在执行数据科学(DS)艺术时,统计数据可以成为一种强大的工具。从高层次来看,统计学是利用数学来进行数据的技术分析。诸如条形图之类的基本可视化可能会为您提供一些高级信息,但通过统计,我们可以以更加信息驱动和有针对性的方式对数据进行操作。所涉及的数学帮助我们形成关于我们数据的具体结论,而不仅仅是猜测。
使用统计数据,我们可以获得更深入,更细粒度的洞察,了解我们的数据是如何构建的,并基于该结构,我们如何最佳地应用其他数据科学技术来获取更多信息。今天,我们将看看数据科学家需要了解的5个基本统计概念以及如何最有效地应用它们!
统计特征
统计特征可能是数据科学中最常用的统计概念。它通常是您在探索数据集时应用的第一种统计技术,包括偏差,方差,均值,中位数,百分位数等等。在代码中理解和实现都非常容易!请查看下面的图形以获取说明。
中间的线是数据的中值。中位数用于均值,因为它对异常值更加稳健。第一个四分位数基本上是第25个百分点; 即数据中25%的点低于该值。的第三个四分位数是第75百分位; 即数据中75%的点低于该值。最小值和最大值表示数据范围的上端和下端。
箱形图完美地说明了我们可以用基本统计特征做什么:
- 当箱形图很短时,它意味着您的大部分数据点都相似,因为在很小的范围内有许多值
- 当箱形图很高时,它意味着您的大部分数据点都非常不同,因为这些值分布在很宽的范围内
- 如果中值接近底部,那么我们知道大多数数据具有较低的值。如果中值接近顶部,那么我们知道大多数数据具有更高的值。基本上,如果中间线不在框的中间,则表明数据偏斜。
- 胡须很长吗?这意味着您的数据具有较高的标准偏差和方差,即数值分散且变化很大。如果盒子的一侧有胡须,而另一侧没有胡须,那么您的数据可能只在一个方向上变化很大。
所有这些信息来自一些易于计算的简单统计特征!只要您需要快速而翔实的数据视图,请尝试这些。
概率分布
我们可以将概率定义为某个事件发生的几率。在数据科学中,这通常在0到1的范围内量化,其中0表示我们确定这不会发生,1表示我们确定它将发生。然后,概率分布是表示实验中所有可能值的概率的函数。请查看下面的图形以获取说明。
均匀分布(左),正态分布(中),泊松分布(右)
- 一个均匀分布是最基础的,我们在这里展示3。它有一个值只出现在一定范围内,而超出该范围的任何东西只有0.这是一个“开或关”分布。我们还可以将其视为具有2个类别的分类变量的指示:0或值。您的分类变量可能具有除0以外的多个值,但我们仍然可以将其视为多个均匀分布的分段函数。
- 甲正常 分布,通常被称为一个高斯 分布,特别地由它的平均值和标准偏差定义。平均值在空间上改变分布,标准偏差控制分布。与其他分布(例如泊松)的导入区别在于标准偏差在所有方向上是相同的。因此,利用高斯分布,我们知道数据集的平均值以及数据的扩展,即它是在很大范围内扩展还是高度集中在几个值附近。
- 一个泊松分布类似于正常,但有一个附加因素偏斜。对于偏斜的低值,泊松分布将在所有方向上具有相对均匀的扩展,就像正常一样。但是当偏度值的幅度较大时,我们的数据在不同方向上的传播会有所不同; 在一个方向上它将非常分散,而在另一个方向上它将高度集中。
你可以深入研究更多的发行版,但这些发行版已经给了我们很多价值。我们可以使用统一分布快速查看和解释我们的分类变量。如果我们看到高斯分布,我们知道有许多算法默认情况下会特别适用于高斯,所以我们应该去那些。使用泊松,我们将看到我们必须特别小心并选择一种对空间扩散变化具有鲁棒性的算法。
维度降低
术语减少维是非常直观明了。我们有一个数据集,我们希望减少它拥有的维度。在数据科学中,这是特征变量的数量。请查看下面的图形以获取说明。
立方体代表我们的数据集,它有3个维度,总共1000个点。现在,今天的计算1000点很容易处理,但在更大的规模,我们会遇到问题。然而,仅从二维视角(例如从立方体的一侧)查看我们的数据,我们可以看到从该角度划分所有颜色非常容易。随着降维我们便投射 3D数据到2D平面上。这有效地将我们需要计算的点数减少到100,大大节省了计算量!
我们可以通过特征修剪来降低维数的另一种方法。通过功能修剪,我们基本上想要删除任何我们看到的对我们的分析不重要的功能。例如,在探索数据集之后,我们可能会发现,在10个特征中,其中7个与输出具有高度相关性,而其他3个具有非常低的相关性。那么这3个低相关特征可能不值得计算,我们可能只能从我们的分析中删除它们而不会损害输出。
用于降维的最常见的统计技术是PCA,它基本上创建了特征的矢量表示,显示了它们对输出的重要性,即它们的相关性。PCA可用于执行上面讨论的两种降维方式。在本教程中阅读更多相关内容。
过采样和欠采样
Over and Under Sampling是用于分类问题的技术。有时,我们的分类数据集可能会过于倾向于一边。例如,我们在类1中有2000个示例,但在类2中只有200个。这将摒弃我们尝试用于建模数据和进行预测的许多机器学习技术!我们的Over and Under Sampling可以解决这个问题。请查看下面的图形以获取说明。
在上图的左侧和右侧,我们的蓝色类比橙色类有更多的样本。在这种情况下,我们有2个预处理选项,可以帮助我们的机器学习模型的培训。
欠采样意味着我们将只选择多数类中的一些数据,只使用少数类的例子。应该进行这种选择以保持类的概率分布。那很简单!我们只需少量样品就可以平衡我们的数据集!
过采样意味着我们将创建我们的少数类的副本,以便拥有与多数类相同数量的示例。将制作副本,以保持少数群体的分布。我们只是在没有获得更多数据的情况下平衡了我们的数据集!
贝叶斯统计
完全理解我们使用贝叶斯统计的原因要求我们首先了解频率统计失败的位置。频率统计是大多数人在听到“概率”一词时所考虑的统计数据类型。它涉及应用数学来分析某些事件发生的概率,具体而言,我们计算的唯一数据是先验数据。
我们来看一个例子。假设我给了你一个骰子,并问你有什么机会你滚动6.好吧大多数人只会说它是6中的一个。事实上,如果我们要进行频率分析,我们会看一些有人滚动的数据死10,000次并计算每个数字的频率; 它会大致达到1/6!
但是,如果有人告诉你,具体的模具这是给您被加载到始终在6降落?由于频率分析只考虑以前的数据,这证明这是给你关于正在加载的模具没有被 考虑在内。
贝叶斯统计确实考虑了这一证据。我们可以通过看一下Baye定理来说明这一点:
我们方程中的概率P(H)基本上是我们的频率分析; 鉴于我们之前的数据,我们的事件发生的概率是多少。根据我们频率分析的信息,我们方程中的P(E | H)被称为似然,基本上是我们的证据是正确的概率。例如,如果你想要将模具滚动10,000次,而前1000次滚动你得到全部6次,你就会开始相信这个模具已加载!在P(E)是实际的证据是真实的概率。如果我告诉你骰子被装上了,你能相信我并说它实际装了,或者你认为这是一招?!
如果我们的频率分析非常好,那么它就会有一定的分量来表示我们对6的猜测是正确的。同时,我们考虑到我们的装载模具的证据,如果它是真实的或不是基于它自己的先前和频率分析。从方程式的布局可以看出,贝叶斯统计将一切都考虑在内。只要您认为先前的数据不能很好地代表您未来的数据和结果,请使用它。