数据的描述性统计

数据的描述性统计包含集中趋势、离中趋势和分布形态三个方面。集中趋势有众数、中位数和平均数(算术、加权、几何),其中中位数在有偏斜数据中更具代表性。离中趋势则通过方差、标准差、极差、分位数等指标衡量数据的波动程度,而分类数据使用异众比率。离散系数用于比较不同数据集合的离散程度,偏态系数和峰态系数反映数据分布的对称性和峰度。
摘要由CSDN通过智能技术生成

对数据的描述分为三个维度,分别是:数据的集中趋势、数据的离中趋势和数据的分布形态。

数据的集中趋势

描述数据集中趋势的指标有众数、中位数和平均数,其中平均数又分为算数平均数、加权平均数和几何平均数

  1. 众数

    数据集合中出现次数最多的数值被称为众数。如果一个数据集合中,只有一个数值出现最多,那么这个数值就是该数据集合的众数。众数表示数据集合的数据集中趋势。例如某个班级有10个学生,这些学生的数学成绩集合为{87,75,95,87,70,92,87,64,98,87},那么该班级的众数为87,有4个学生的成绩为87。

  2. 中位数

    对于数据集合{x1,x2,…,xn},将所有的数值按照降序或升序排序,如果数据集合的数值个数是奇数,那么最中间的数值就是该集合的中位数;如果数据集合的数值个数是偶数,那么取最中间两个数值的算数平均值作为中位数。例如,上面班级10个学生的数学成绩升序排列后为{64,70,75,87,87,87,87,92,95,98},那么该班级的中位数为87。

    中位数与算数平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时,能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。

  3. 算数平均数

    是最常用的数据集中趋势指标,表示数据集合的集中趋势。某一数据集合为{x1,x2,…,xn},该数据集合的算数平均数的计算公式为:
    x ‾ = x 1 + x 2 + ⋯ + x n n \overline{x}=\frac{x_1+x_2+\cdots +x_n}{n} x=nx1+x2++xn
    ​ 算数平均值有其明显的缺陷,当数据集合中有极大值或极小值存在时,会对算数平均值产生很大的影响,其 计 算结果会掩盖数据集合的真实特征,这时算数平均值就失去了代表性。

  4. 加权平均数

    因为简单算数平均值认为所有的数据值都具有同等的重要性,所以每个数据值都具有相同的权重。但有些时候,每个数据值的权重是不一样的,需要用加权算数平均值来表示数据集合的集中趋势。某一数据集合为{x1,x2,…,xn},且每个数据的权重为{w1,w2,…wn}该数据集合的加权平均数的计算公式为:
    x ‾ = x 1 w 1 + x 2 w 2 + ⋯ + x n w n n \overline{x}=\frac{x_1w_1+x_2w_2+\cdots +x_nw_n}{n} x=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值