六、数据的基本统计描述

1.数据的基本统计描述

基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。

  • 中心趋势度量 :均值、中位数、众数和中列数;
  • 度量数据散步:极差、四分位数、方差、标准差和四分位数极差;
  • 数据的基本统计描述的图形显示:分为数图、直方图、散点图。

2 中心趋势度量

  • 均值
    也就是度量数据分布的中部或中心位置。(给定一种属性,它的值大部分落在何处)
  1. 数据集“中心”的最常用、最有效的数值度量是均值。
  2. 均值对应于关系数据库系统提供的内置聚集函数 average(SQL 的 avg() )
  • 例子
    假设我们有salary的如下值(以千美元为单位),安递增次序显示:30,31,47,50,52,52,56,60,63,70,70,110。则工资的平均值为:
    在这里插入图片描述
  • 中位数
    中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。
  • 例子
    对于上面的例子,有12个观测数据,因此中位数不唯一。它可以是最中间两个值52和56中的任意值。根据约定,我们指定这两个最中间的值的平均值为中位数。
    在这里插入图片描述
  • 众数
    众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。 也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。用M表示。
  • 例子
    对于上面例子中我们有两个众数,分别为52000美元和70000美元。
  • 中列数
    中列数是指数据集的最大和最小值的平均值。
  • 例子
    在这里插入图片描述

3 度量数据的散步

  • 极差、四分数和四分位数极差
  1. 极差指的是最大值(max)与最小值(min)之差。
  2. 分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。四分位数是3个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。
  3. 四分位数极差(IQR)指的是第3个四分位数和第1个四分位数两者之间的差:定义为:
    在这里插入图片描述
  • 例子
    假设salary的如下值(以千美元为单位),安递增次序显示:30,31,47,50,52,52,56,60,63,70,70,110。则工资的平均值为:
  1. 极差=110000-30000=80000(美元)。
  2. 四分位数:Q1=47000美元,Q2=52000美元,Q3=63000美元。
  3. 四分位数极差:IQR=Q3-Q1=63000-47000=16000美元。
  • 方差与标准差
    方差和标准差都是数据散步度量,它们指出数据分布的散步程度。标准差越小,就表明数据观测与平均值越越接近。
    数值属性X的N个观测值x1,x2,…,xn的方差是:
    在这里插入图片描述
  • 计算方法
    在这里插入图片描述

4 图像显示

  • 盒图
    箱形图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。
    在这里插入图片描述
  • 分位数图
    分位数图(quantile plot)是一种观察单变量数据分布的简单有效方法。
    在这里插入图片描述
  • 分位数-分位数图(qq图)
    分位数-分位数图或q-q图对着另一个对应的分位数,绘制一个单变量分布的分位数
    在这里插入图片描述
  • 直方图或频率直方图
    直方图是一种概况给定属性X的分布的图形方法。
    在这里插入图片描述
  • 散点图
  1. 数据的相关性:正相关和负相关
    在这里插入图片描述
  2. 散点图是确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。
    在这里插入图片描述

5 代码实战

5.1 用Numpy实现基本的统计函数

# *-* coding:utf-8 *-*
import numpy as np
ex1 = np.random.randint(0, 10, size=(1, 10))
print("ex1:", ex1)
# 求元素和
print("sum:", np.sum(ex1))
# 求元素的最小值
print("min:", np.min(ex1))
# 求最小值索引
print("min index:", np.argmin(ex1))
# 求最大值
print("max:", np.max(ex1))  # 求最大值
# 求最大值索引
print("max index:", np.argmax(ex1))  # 求最大值索引
# 求平均值
print("avg:", np.mean(ex1))  # 求平均值
print("avg:", ex1.mean())
# 求中位数
print("中位数:", np.median(ex1))  # 求中位数
# 求方差
print("方差:", np.var(ex1))
# 求标准差
print("标准差:", np.std(ex1))
# 求极差,最大值与最小值的差
print("全距:", np.ptp(ex1))
print("方差:", np.var(ex1))
# 求标准差
print("标准差:", np.std(ex1))
# 求极差,最大值与最小值的差
print("全距:", np.ptp(ex1))
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值