如何描述数据分布的特征？

最新推荐文章于 2025-03-25 13:47:24 发布

奔跑的蜗牛君666

最新推荐文章于 2025-03-25 13:47:24 发布

阅读量1.5w

点赞数 4

分类专栏：统计学文章标签：数据分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/happylls666/article/details/128324064

版权

统计学专栏收录该内容

10 篇文章

订阅专栏

数据分布的特征可以从集中趋势，离中趋势，偏态和峰态三个方面进行描述

一.集中趋势（位置）

是一组平均指标，它反映了总体的一般水平或分布

1.平均数

分为：简单平均数（均值），加权平均数，几何平均数

特点：是集中趋势最常用的测度值；是一组数据的均衡点所在；易受极端值影响；用于数值型数据，不能用于分类数据和顺序数据

简单平均数

加权平均数

几何平均数

主要用于计算平均增长率

2.中位数

排序后处于中间位置上的值

主要用于顺序数据，也可用于数值型数据，但不能用于分类数据

不受极端值的影响

3.众数

一组数据中出现次数最多的数据值

一组数据可能没有众数或有多个众数

适合数据量较多时，并且在数据分布偏斜程度较大且有明显峰值时应用

二.离中趋势（分散程度）

是一组变异指标，主要是用来刻画总体分布的变异状况或离散程度

1.极差

是一组数据的最大值和最小值之差

特点：极差越大，离散程度越大；离散程度最简单的测度值；易受极端值影响；未考虑数据的分布

2.平均差

是各变量与均值差的平均数，即平均差异，反映一组数据的离散程度

特点：各变量与均值差的绝对值的平均数；数学性质较差，实际应用较少；未考虑数据的分布

3.方差

反映的是各变量与均值差的平均差异，是数据离散程度最常用的测度值

总体方差：根据总体数据计算的

样本方差：根据样本数据计算的

4.标准差

是方差的算术平方根，也是数据离散程度常用的测度

5.变异系数

是标准差与其对应的均值之比

用于对不同组别的数据比较其离散程度

当比较两组数据离散程度时：如果他们的平均数相同，可以直接利用标准差来比较，标准差越大，离散程度越大；但如果平均数不同时，比较其离散程度就不能采用标准差，而需采用标准差与平均数的比值（即变异系数）来比较

三.偏态和峰态（形状）

反映数据总体分布形态的指标

偏态：反映数据分布不对称的方向和程度

峰态：反映数据分布图的尖峭程度或扁平程度

1.偏态系数

是数据分布偏斜程度的测度

偏态系数 = 0时：对称分布

偏态系数 > 0时：右偏分布

偏态系数 < 0时：左偏分布

2.峰态系数

是数据分布尖峭程度的测度

峰态系数 = 0时：峰度适中

峰态系数 > 0时：尖峰分布

峰态系数 < 0时：偏平分布

四.数据标准化

定义：数据指数化

意义：能够去除数据的单位限制，将其转化为无单位的纯数值，便于不同单位或量级的指标能够进行比较和加权

0-1标准化：也叫离差标准化，是对原始数据进行线性变换，是结果落到 [0,1] 区间

z-score标准化：也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。