数据的基本统计描述(未完待续)

数据的基本统计描述
均值、众数、方差、标准差
中位数:数据从小到大排列–奇数个值:取中间;偶数个值,取中间两数的平均
中列数:=(max+min)/2
极差(range):max-min
分位数(quantile): 二分位数–中位数;

  • 四分位数–Q1的位置= (n+1) × 0.25
    Q2的位置= (n+1) × 0.5
    Q3的位置= (n+1) × 0.75*
    四分位数极差(IQR):=Q3-Q1

五数概括:Q2,Q1,Q3、min、max按次序min、Q1、Q2、Q3、max写出

盒图 / 箱型图(Box-plot)
体现五数概况,

  • 盒的端点–四分位数
  • 盒内的线标记–中位数
  • 盒外两条线–最大和最小
  • 仅当最高和最低观测者超过四分位数不到1.5IQR时,胡须可扩展到它们,否则,胡须在出现在四分位数的1.5IQR之内的最极端观测值处种植,剩下的个别绘出。

在这里插入图片描述1、IQR = Q3-Q1,即上四分位数与下四分位数之间的差,也就是盒子的长度。
2、最小观测值为min = Q1 - 1.5
IQR,如果存在离群点小于最小观测值,则胡须下限为最小观测值,离群点单独以点汇出。如果没有比最小观测值小的数,则胡须下限为最小值。
3、最大观测值为max = Q3 + 1.5IQR,如果存在离群点大于最大观测值,则胡须上限为最大观测值,离群点单独以点汇出。如果没有比最大观测值大的数,则胡须上限为最大值。

作用:

  1. 识别异常值

箱形图为我们提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。

  1. 偏态和尾重
  2. 判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)。

散点图
作用:确定两个数值变量之间是否存在联系、模式或趋势。比如两个属性是否是呈现正相关或者负相关或者不相关
直方图 / 频率直方图
作用:统计频数
分位数图
分位数-分位数图(q-q图)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值