数据科学之基石:数据科学家必须掌握的10个统计学概念

2021-01-29 12:29:00

全文共2848字,预计学习时长8分钟

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

图源:Google

 

数据科学是一个跨学科领域,其基石之一是统计学。如果没有足够的统计知识,就很难理解或解释数据。

 

统计学帮助解释数据。我们使用统计学方法,根据从某个总体中抽取的样本,推断出该总体的结果。此外,机器学习和统计学也有很多交叉。要成为一名数据科学家,就需要学习统计学及其概念。本文将具体解释10个基本的统计概念。

 

1.总体与样本

 

总体是一个群体中的所有元素。例如,美国的大学生是包括美国所有大学生的总体。在欧洲25岁的人是一个总体,该总体包括所有符合该描述的人。

 

由于我们不能收集一个总体的所有数据,因此对总体进行分析有时是不可行或不可能的,因此,可以借助样本进行分析。样本是总体的一个子集。例如,1000名美国大学生是“美国大学生”总体的一个子集。

 

2.正态分布

 

概率分布是表示事件或实验结果概率的函数。考虑数据帧中的一个特性(即列)。这个特征是一个变量,它的概率分布函数显示了可以取值的区间。

 

概率分布函数在预测分析或机器学习中非常有用。我们可以根据某个总体样本的概率分布函数来预测该总体。

 

正态(高斯)分布是一个概率分布函数,看起来像一个钟型。下图显示了典型正态分布曲线的形状。

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

曲线的峰值表示变量最可能采用的值。离峰值越远,取该值的概率就越小。

 

3.量度集中趋势

 

中心趋势是概率分布的中心值(或典型值)。最常用的中心趋势度量是平均数、中位数和众数。

 

· 平均数是一列数值的平均值。

· 中位数是按升序或降序排序时中间的值。

· 众数是最常出现的值。

 

4.方差与标准差

 

方差是值之间变化的度量。它的计算方法是求每个值和平均值的平方差,然后将这些平方差相加,最后将总和除以样本数。

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

标准差是衡量数值分布的一种方法,它是方差的平方根。

 

5. 协方差和相关性

 

协方差是一种定量方法,它表示两个变量的变化在多大程度上相互匹配。更具体地说,协方差以其平均值(或预期值)来比较两个变量的偏差。

 

下图显示了随机变量X和Y的一些值。橙色点表示这些变量的平均值。这些值的变化与变量的平均值类似。因此,X和Y之间存在正值协方差。

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

两个随机变量的协方差公式:

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

其中E是期望值,µ是平均值。

 

相关性是通过每个变量的标准差对协方差进行正态化。

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

其中σ是标准偏差。

 

这种正态化消除了单位,相关值始终在0和1之间。请注意,这是绝对值。如果两个变量之间存在负相关性,则相关性介于-1和0之间。如果比较三个或更多变量之间的关系,最好使用相关性,因为值的范围或单位可能会导致其假设错误。

 

6.中心极限定理

 

随机变量的分布在社会科学的许多领域都鲜为人知,因此正态分布得以广泛应用。

 

中心极限定理(CLT)解释了为什么正态分布可以用来证明这种极限情况。根据中心极限定理,当我们从一个分布中抽取更多样本时,无论总体分布如何,样本平均值都将趋向于正态分布。

 

思考这样一个案例:我们需要了解一个国家所有20岁人群的身高分布。收集这些数据几乎是不可能,也不实际的。所以,我们在全国范围内抽取了20岁的人群样本,计算样本中人群的平均身高。中心极限定理指出,当我们从人群中抽取样本越多时,样本分布将越接近正态分布。

 

为什么正态分布如此重要?正态分布是用均值和标准差来描述的,可以很容易地计算出来。如果知道正态分布的平均值和标准差,就可以计算出几乎所有关于它的信息。

 

7.P值

 

P值是衡量随机变量取值可能性的量。假设有一个随机变量A和x值,x的p值是A取x值时的概率,或者是取任何其他值时,有相同或更少机会被观察到的值的概率。

 

下图显示了A的概率分布,很容易就观察到10左右的值。随着值的增大或减小,概率降低。

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

有另一个随机变量B,而且想看B是否大于A。从B中获得的平均样本均值为12.5。12.5的p值位于下图中的绿色区域。绿色区域表示获得12.5或更大极值的概率(在本例中高于12.5)。

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

假设p值是0.11,怎么解释呢?p值为0.11意味着我们对结果有89%的把握。换言之,该结果受随机事件影响的可能性有11%。类似地,p值为0.05意味着结果受到随机事件影响的可能性为5%。

 

如果随机变量B的样本均值的平均值为15,这是一个更极端的值,p值将低于0.11。

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

8.期望值和随机变量

 

随机变量的期望值是该变量所有可能值的加权平均值。这里的权重是指随机变量取特定值的概率。对于离散和连续随机变量,期望值的计算是不同的。

 

· 离散随机变量取有限多或可数无限多的值。一年中的雨天数是一个离散的随机变量。

 

· 连续随机变量取不可数的无穷多个值。例如,从家到办公室的时间是一个连续的随机变量。根据你测量它的方式(分、秒、纳秒等等),它需要无数个值。

 

离散随机变量期望值的公式为:

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

连续随机变量的期望值用相同的逻辑计算,但方法不同。因为连续的随机变量可以取不可数的无穷多个值,所以我们不能谈论取特定值的变量。我们更关注其有价值的范围。

 

为了计算值范围的概率,使用概率密度函数(PDF)。PDF是一个函数,指定随机变量在特定范围内取值的概率。

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

9.条件概率

 

概率单纯是指事件发生的可能性,永远取0到1(包括0和1)之间的值。事件A的概率表示为p(A),并有期望结果的数量除以所有结果的数量来计算。例如,当掷骰子时,得到小于3的数字的概率是2/6。期望结果数为2(1和2);总结果数为6。

 

条件概率是假设与事件A有关的另一个事件已经发生时,事件A发生的可能性。

 

如下所示,假设有两个盒子,盒子里放着6个蓝色的球和4个黄色的球。我让你随便挑一个球。得到蓝球的概率是6/10=0,6。如果我让你从A盒中挑一个球结果会怎样?

 

选择蓝色球的概率明显降低。这里的条件是从A盒中取球,与之前事件(挑选一个蓝色的球)发生的概率相比,发生了明显改变。给定事件B已经发生的事件A的概率表示为p(A | B)。

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

10.贝叶斯定理

 

根据贝叶斯定理,在给定事件B已经发生的条件下,A发生的概率以及给定事件A已经发生的条件下,事件B发生的概率可以用事件A和事件B的概率来计算。

 

数据科学之基石:数据科学家必须掌握的10个统计学概念

 

这就是所谓的普遍存在的贝叶斯统计定理。在贝叶斯统计定理中,事件或假设事件发生的概率可以作为证据发挥作用。因此,先验概率和后验概率因证据而异。

 

朴素贝叶斯算法是结合贝叶斯定理和一些朴素假设构造的。朴素贝叶斯算法假设特征是相互独立的,特征之间没有相关性。

 

当然,关于统计学还有很多东西要学。从基础知识开始,你可以稳步地深入到高级主题。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据标准化是指在企业数据治理中对数据进行统一规范的处理过程。它是企业数据治理的基石,对于提高数据质量、确保数据一致性、增强数据可信度具有重要作用。 首先,数据标准化有助于提高数据质量。在企业内部,不同部门可能使用不同的数据规范和格式,导致数据的质量参差不齐。通过数据标准化,可以确保数据以一致、准确的方式存储和传输,减少数据错误的可能性,提高数据的准确性和可信度。 其次,在数据标准化的过程中,可以对数据进行清洗和整理,消除数据中的重复、冗余和不一致性。这可以减少数据处理的复杂性,提高数据的可管理性和查询效率。 另外,数据标准化还有利于不同系统之间的数据交互和集成。不同系统可能使用不同的数据标准和结构,导致数据的互操作性差。通过数据标准化,可以将各个系统的数据统一转化为统一的格式和规范,简化数据集成和交互的难度,提高系统之间的数据交流效率。 最后,数据标准化还可以为企业提供更好的决策依据。当数据标准化后,不同部门和岗位的员工可以使用统一的数据标准进行数据分析和决策,避免数据误解和错误的决策。 总之,数据标准化是企业数据治理的基石,通过统一规范数据的处理和管理,可以提高数据质量、数据一致性和数据可信度,为企业提供更好的决策依据,推动企业的数据驱动发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值