数据统计分析:数据常用特征定义、意义与应用

本文详细介绍了数据统计分析中的关键特征,包括均值、数学期望、平均数、中位数、众数、四分位数、极差、方差和标准差的概念、意义及其在评估数据平均水平和波动情况时的应用。此外,还探讨了异常值的定义与处理方法。
摘要由CSDN通过智能技术生成

一、常用特征

均值、数学期望、平均数、中位数、众数、四分位数

(1)概念

1. 均值

均值是一个大家庭:平均值、数学期望、中位数、四分位数、众数,都是“均值”;
常理解为平均数。

2. 数学期望

在这里插入图片描述
介绍:以概率为权的加权平均。
意义:期望是针对于随机变量而言的一个量,可以理解是一种站在“上帝视角”的值,针对于它的样本空间而言的。具有后验性。
理解:

3. 平均数=平均值

把n个数的总和除以n,所得的商叫做这n个数的算术平均数。是大家经常以为的平均数、均值。在这里插入图片描述
意义:刻画了一组数据的总体平均水平;具有先验性。
理解:

  1. 可理解为特殊的数学期望:权值都相等的加权平均。
  2. 大数定律:随样本容量趋于无穷,平均数无限接近数学期望。

优点

  1. 它能够利用所有数据的特征,而且比较好算。
  2. 在数学上,平均数是使误差平方和达到最小的统计量,也就是说利用平均数代表数据,可以使二次损失最小。因此,平均数在数学中是一个常用的统计量。

缺点:

  1. 正是因为它利用了所有数据的信息,平均数容易受极端数据的影响。=> 对异常值不敏感
    比如:一般国家人均收入不能用平均值来衡量,个别收入高会拉高整体平均
4. 中位数

中位数三步走:

  1. 按顺序排列数字:最小或最大。
  2. 如果有奇数个数值,则中位数位于中间的数。
  3. 如果有偶数个值,则为中间两数之和的平均数。
    在这里插入图片描述

意义:刻画了一组数据的中等水平
优点:

  1. 能够避免极端数据;

缺点:

  1. 没有完全利用数据所反映出来的信息;
5. 众数

数据集中频数出现最多的一个或者几个数,可以用于类别数据

意义:刻画了一组数据中出现次数最多的情况;
优点:

  1. 能够避免极端数据;

缺点:

  1. 没有完全利用数据所反映出来的信息;
6. 四分位数

四分位数三步走:

  1. 求出中位数。
  2. 通过下界与中位数求出下四分位数。
  3. 通过上界与中位数求出下四分位数。

算法如下:
下四分位数n/4的位置(n代表数据集中数据的个数),它的值

  1. 如果为整数,则下四分位数位于n/4这个位置和下一个位置的中间,取这两个位置上的数值平均数。
  2. 如果不是整数,则向上取整后的数为下四分位数的位置。

上四分位数3n/4的位置,它的值

  1. 如果为整数,位于3n/4这个位置和下一个位置的中间,取其平均数。
  2. 如果不是整数则向上取整为上四分位数的位置。

极差、方差、标准差

1. 极差

极差=最大标志值—最小标志值
在这里插入图片描述
意义:

  1. 在统计中常用极差来刻画一组数据的离散程度;极差越大,离散程度越大,反之,离散程度越小。
  2. 同时,它能体现一组数据波动的范围。

优点:

  1. 计算简单,含义直观,运用方便;

缺点:

  1. 只指明了测定值的最大离散范围,而未能利用全部测量值的信息,不能细致地反映测量值彼此相符合的程度。
  2. 它仅仅取决于两个极端值的水平,不能反映其间的变量分布情况;
  3. 同时易受极端值的影响。

2. 方差

参考:彻底理解样本方差为何除以n-1

设总体容量为N,总体均值为µ,总体方差为𝛔²,总体方差计算公式:

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值