统计学数据的概括性度量

最新推荐文章于 2023-07-01 17:00:15 发布

洪荒上仙

最新推荐文章于 2023-07-01 17:00:15 发布

阅读量5.4k

点赞数

分类专栏：统计学文章标签：统计学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuxuan251314/article/details/78275890

版权

第四章数据的概括性度量

数据分布的特征可以从三个方面进行测度和描述：一是分布的集中趋势，反映各数据向其中心值靠拢或聚集的程度；二是分布的离散程度，反映各数据远离其中心的趋势；三是分布的形状，反映数据分布的偏态和峰态。

4.1 集中趋势的度量

4.1.1 分类数据：众数

众数（mode）是一组数据中出现次数最多的变量值，用 $M_{o}$ 表示。众数主要用于测度分类数据的集中趋势，当然也适用于顺序数据和数值型数据。一般情况下，只有在数据量较大的情况下，众数才有意义。

4.1.2 数序数据：中位数和分位数

中位数
是一组数据排序后处于中间位置上的变量值，用 $M_{e}$ 表示。中位数主要用于测度顺序数据的集中趋势，当然也适用于数值型数据，但不适用于分类数据。
四分位数
它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分4部分，其中每部分包含25%的数据。

4.1.3 数值型数据：平均数

平均数也称均值（mean），它是一组数据相加后除以数据的个数得到的结果。不适用于分类数据和顺序数据。
根据所掌握数据的不同，平均数有不同的计算形式和计算公式。
1. 简单平均数（simple mean）和加权平均数（weighted mean）
1. 几何平均数（geometric mean）是n个变量乘积的n次方根，用G表示。几何平均数主要用于计算平均比率。

4.1.4 众数、中位数和平均数的特点与试用场合

众数是一组数据分布的峰值，不受极端值影响，其特点是不唯一，一组数据可能有一个众数，也可能有两个或多个众数，也可能没有众数。众数只有在数据量较多时才有意义，当数据量较少时，不宜食用众数。众数主要适合作为分类数据的集中趋势测度值。
中位数时一组数据中间位置上的代表值，不受数据极端值影响。当一组数据的分布偏斜程度较大时，使用中位数也许是一个较好的选择。中位数主要适合于数序数据的集中趋势测度值。
平均数是针对数值型数据计算的，而且利用了全部数据信息。当数据呈对称或接近对称分布时，3个代表值相等或接近相等，这时应该选在平均值作为集中趋势的代表值。但平均数的主要缺点是容易受到极端值影响，对于偏态数据，可以考虑中位数和众数。

4.2 离散程度的度量

数据的离散程度时数据分布的另一个重要特征，它反映的是各个变量值远离其中心值的程度。数据的离散程度越大，集中趋势的测度值对该组数据的代表性就越差。离散程度越小，其代表性就越好。描述数据离散程度采用的测度值，根据数据类型的不同主要有异纵比率、四分位差、方差和标准差。此外，还有极差、平均差以及测度相对离散程度的离散系数等。

4.2.1 分类数据：异纵比率

异纵比率（variation ratio）是指非众数组的频数占总频数的比例，用 $V_{r}$ 表示。其计算公式为：

V r = \sum f i - f m \sum f i

$V_{r} = \frac{\sum f_{i} -f_{m} } {\sum f_{i}}$

式中

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。