七周成为数据分析师07_统计学基础

拿到数据之后,我们应该怎么做?

直接套用各种图表公式进行分析并不是一个好做法。因为众多分析思路和公式都是基于数据服从一定分布的前提,如果不了解数据质量和分布情况,做推断分析是事倍功半的。

正确的处理方法是先使用描述统计

 

描述统计学

描述统计学是一种概括数据集的方式,包括数据的加工和显示,数据集的分布特征等。它与推断统计相呼应。

首先把数据分为分类数据和数值数据。二者最显著的区分在于分类数据不可做加减,而数值数据可以。

分类数据主要应用频数统计,对各分类数据进行计数。

数值数据则是描述统计的重点。

 

数据的度量

1. 平均数:平均数容易受到极值的影响,进而“被平均”

2. 中位数:处于数据排序后最中间的数值

3. 众数:众数使用的频次较低,更多用于分类数据中

4. 四分位数:将数据排序后划分为四等分,能辅助衡量数据的分布状态。其中第二四分位数(Q2)即中位数

5. 方差:描述数据的离散程度

方差越大,说明数据的波动越大,数据集的离散程度越大。

Excel中,总体方差:VARP(), 样本方差VAR()

6. 标准差:方差的开平方

标准差同方差衡量的意义一致,但标准差更容易与平均数等指标进行度量。

Excel 中,总体标准差为:stdevp(),样本标准差为stdev()

 

7. 数据标准化 Z-Score

Z-Score是数据标准化的一种,它将一组数据转化为均值为0标准差为1的标准正态分布。

标准化有助于不同量纲间的数据进行比较,和助于清晰展现一组数据间的变化

8. 切比雪夫定理

至少有75%的数据,位于[μ-2σ, μ+2σ]内

至少有89%的数据,位于[μ-3σ, μ+3σ]内

至少有96%的数据,位于[μ-5σ, μ+5σ]内

 

9. 箱线图

箱线图主要用于查看数据的分布情况。

上下边缘属于经验推算,表示绝大部分数据都位于上下边缘之间。

 

10. 直方图

直方图可以理解为特殊的柱形图,但直方图各柱子间是没有间隔的。

它将x轴数据进行分组,用于查看数据的分布情况。

直方图可以通过设置箱数或箱宽度改变图表展示情况。数据范围=箱数*箱宽度。

 直方图可以按照分布情况大致划分为以下类别:

 

正态分布中的切比雪夫定理

正态分布中,至少有68%的数据,位于[μ-σ, μ+σ]内

正态分布中,至少有95%的数据,位于[μ-2σ, μ+2σ]内

正态分布中,至少有99.8%的数据,位于[μ-3σ, μ+3σ]内

 

 

 

 

 

 七周成为数据分析师的课程,还有最后一周属于 Python 相关基础知识。因为个人已经有 Python 基础知识,也已经使用 Python 这门语言一段时间了,就不对它再做一些笔记。

相关的文字资料可以查看:

如何七周成为数据分析师22:用pandas进行数据分析实战

如何七周成为数据分析师21:Python分析之numpy和pandas入门

转载于:https://www.cnblogs.com/xingyucn/p/10404290.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值