这五种统计学概念，扫清数据科学之路“拦路虎”

最新推荐文章于 2022-12-31 23:47:23 发布

「已注销」

最新推荐文章于 2022-12-31 23:47:23 发布

阅读量576

点赞数 1

分类专栏：干货文章

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/96472803

版权

干货文章专栏收录该内容

39 篇文章 1 订阅

订阅专栏

640?wx_fmt=jpeg

全文共2551字，预计学习时长5分钟

640?wx_fmt=jpeg

图片来源：pexels.com/@rawpixel

数据科学实际上可定义为从数据中获取额外信息的过程。在进行数据科学研究时，真正想要达到的是一切数据在现实世界中的实际含义。

为提取复杂数据集中的信息，数据科学家采用了许多工具和技术，包括数据探索、可视化和建模。数据探索中，常用的一类非常重要的数学技术是统计学。

实际上，统计学可对数据概要进行具体而精确地定义。使用统计学，可以描述信息的部分属性，而非尝试描述每个数据点。因此统计学通常足以让人们获得有关数据结构和构成的某些信息。

有时，人们听到“统计”这个词时，往往会想得过于复杂。的确，这个词可能有点抽象，但并不总是需要通过复杂理论，才能从统计技术中获得某种价值。

统计学中最基本的部分通常是数据科学中最实用的部分。

今天，本文将概述5种有助于数据科学研究的统计学概念。这些概念没有那么抽象、令人抓狂，而是相当简单、适用的技术，作用颇大。

640?wx_fmt=jpeg

1. 集中趋势

640?wx_fmt=png

数据集或特征变量的集中趋势是集的中心或典型值。我们的想法是，可能存在一单一值可（在某种程度上）最佳描述数据集。

例如，假设正态分布位于（100,100）的x-y位置。然后点（100,100）是集中趋势，因为在所有可供选择的点中，它是对数据进行概要的最佳点。

数据科学中可以用集中趋势方式，快速简单地了解数据集的整体情况。数据的“中心”可能是非常有价值的信息，告知数据集的确切偏差，因为在本质上，数据围绕的任何值都是偏差。以数学方式选择集中趋势有两种常用方法。

平均值

数据集的Mean值就是平均值，即整个数据围绕其展开的数字。在定义Mean时，用于计算平均值的所有值均需进行等量加权。

例如，计算以下5个数字的Mean值：

(3+ 64 + 187 + 12 + 52) / 5 = 63.6

平均值非常适合计算实际数学平均值，也适用于像Numpy这样的Python库，计算速度非常快

中位数

中位数是数据集的中间值，即如果将数据从最小到最大（或从最大到最小）排序，然后取值该集中间的值：即中位数。

再次计算和上一组相同的5个数字的中位数：

[3, 12, 52, 64, 187] → 52

中位数与平均值63.6完全不同。不能说两个数值孰对孰错，但人们可以根据自身情况和目标选择其一。

计算中位数需要对数据进行排序——如果数据集很大，那么这一做法就会变得不切实际。

此外，当异常值出现时，相较于平均值而言，中位数的数值更加稳定。因为如果出现一些非常极端的异常值，那么平均值将会变大或变小。

通过简单的numpy单行，可计算平均值和中位数

numpy.mean(array)

numpy.median(array)

640?wx_fmt=jpeg

2. 扩散

在统计学领域，数据传播是指数据被压缩为单一值或分布到更为广泛范围的程度。

查看下方的高斯概率分布图——假设这些图是描述现实世界中数据集的概率分布。

蓝色曲线的扩散值最小，因为其大多数数据点占据的范围相当窄。红色曲线的扩散值最大，因为其大多数数据点占据的范围更广。

图例显示了这些曲线的标准偏差值，将在下一节中介绍。

640?wx_fmt=png

标准偏差

标准偏差是量化数据传播最常用的方式。计算标准偏差包括5个步骤：

1. 找出平均值。

2. 对于每个数据点，计算其与平均值的差值的平方值。

3. 将第2步得到的值相加。

4. 除以数据点的数量。

5. 取平方根。

640?wx_fmt=png

较大值意味着数据从平均值更广泛地“展开”。较小值意味着数据越集中于平均值。

轻松计算Numpy的标准偏差：

numpy.std(array)

640?wx_fmt=jpeg

3. 百分位数

使用百分位数进一步描述整个范围内每个数据点的位置。

就某数据点在数值范围内的高低位置而言，百分位数描述了该数据点的确切位置。

更正式地说，第p个百分位数是可分成两部分的数据集中的值。位置较低的部分包含数据的p％，即第p个百分位数。

例如，思考以下11个数字的集合：

1, 3, 5, 7, 9, 11,13, 15, 17, 19, 21

数字15是第70个百分位数，因为将数据集从数字15处，分成2个部分时，剩余数据中有70％的数据小于15。

百分位数与平均值和标准偏差相结合，有助于更好地了解特定数据点在数据扩散/范围内的位置。如果该数据点为异常值，那么其百分位数将接近终值——小于5％或大于95％。另一方面，如果百分位数的计算结果接近50，那么该数据点就接近于集中趋势。

数组的第50个百分位数可在Numpy中计算，如下所示：

numpy.percentile(array,50)

640?wx_fmt=jpeg

4. 偏度

数据偏度是统计数据分布非对称程度的数字特征。

正偏意味着数值集中在数据点中心的左侧; 负偏意味着数值集中在数据点中心的右侧。

下图提供了一个很好的例证。

640?wx_fmt=png

通过以下等式可计算偏度：

640?wx_fmt=png

偏度计算了数据分布与高斯分布的距离。偏度值越大，高斯分布离数据集就越远。

这一点很重要，因为如果对数据分布有大概的了解，那么就可以为特定分布调整需要使用的任何ML模型。此外，并非所有ML建模技术都对高斯之外的数据有效。

进入建模前，统计学再次为人们提供了富有洞见的信息！

通过Scipy编程，计算偏度的方式如下：

scipy.stats.skew(array)

640?wx_fmt=jpeg

5. 协方差和相关性

协方差

两个特征变量的协方差用于衡量两个变量如何“相关”。如果两个变量为协方差的正相关，那么当一个变量增加时，另一个变量也会增加；而在若为协方差的负相关，那么两个特征变量的值将在朝着相反方向改变。

相关性

相关性只是标准化的（缩放）协方差，除以需要分析的两个变量的标准偏差的乘积。这可使相关范围始终在-1.0和1.0之间。

如果两个特征变量的相关性为1.0，则变量具有完美的正相关性。这意味着如果由于给定量，一个变量发生改变，则另一变量会按照相同方向成比例地移动。

640?wx_fmt=png

用于降维的PCA例证

正相关系数小于1表示不完全正相关，相关系数越接近1，相关性越强。这同样适用于负相关系数，只是特征变量的值在相反方向上变化，而非在相同方向上发生变化。

了解相关性对降维所拥的主成分分析（PCA）等技术非常有必要。人们首先计算一个相关矩阵——如果有两个或多个高度相关的变量，那么解释数据时，变量实际上是多余的，可删除其中一部分以降低复杂性。

640?wx_fmt=jpeg

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组：梁晶晶、蒋馨怡

相关链接：

https://www.kdnuggets.com/2019/06/statistics-data-scientists-know.html

如需转载，请后台留言，遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集：34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

640?wx_fmt=gif

「已注销」

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2070: 原创

-: 周排名

-: 总排名

343万+: 访问

: 等级

4万+: 积分

4917: 粉丝

4457: 获赞

1312: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

热点文章 552篇
AI 1079篇
热点文章 559篇
干货文章 39篇
热门文章 1篇
学术报告 11篇
干货文章 69篇
学术报告

最新评论

快换浏览器吧！Google Chrome是最烂的浏览器
小没苯agoe: 赞同！！！edge比chrome快22%，firefox比chrome快16%!
提前返回有好处吗？
温庭筠: 我不使用提前返回, 因为接手别人的代码时确实比较难理解一旦代码达到了维护阶段，新手程序员试图推理逻辑时，多次返回就会大大影响他们的效率（当注释比较分散，代码模糊不清时尤其糟糕）
在Windows系统和Linux系统中，如何打造一个好终端？
全栈小5: 文章结构严谨，每次阅读都能收获知识，感谢博主的分享，期待博主继续更新高质量文章，支持！【如何让windows终端和linux一样好用，博主这篇文章，值得一看】
NLP入门第一步：6种独特的数据标记方式
麦甜守望者: 有中文怎么标注的吗？
海量案例！生成对抗网络（GAN）的18个绝妙应用
PreWisdom: 18 Impressive Applications of Generative Adversarial Networks (GANs) by Jason Brownlee on July 12, 2019 in Generative Adversarial Networks https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/ 你知道我要说什么吧，你这完全是把别人的文章简单翻译了一下搬过来了，然后你发原创，真行啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。