整理总结:深入浅出统计学——集中趋势的度量

参考资料:电子工业出版社的《深入浅出统计学》

前言

从一大堆数字中察觉出模式和趋势颇为不易,而求出平均数往往是把握全局的第一步。当我们有了平均数时就能迅速得找出数据中最具代表性的数值——典型值,得出重要的结论。

具体内容

一、均值

1、计算方法是将所有样本值之和除以总样本数。
2、优点是对于抽样数据而言更加稳定,不会因为添加一些样本而导致结果剧烈波动。
3、缺点是当出现与其他数据格格不入的极高或极低的异常值时,异常值会将数据向左或向右拉,从而产生偏移数据,换句话说,异常值的出现会将均值的算法进行扭曲,从而难以实现本应表达的主要事实。
在这里插入图片描述

1、向左偏斜

当异常值位于低端时,会把均值向左拉伸,显出一条尾部,此时均值将小于大部分的值。
在这里插入图片描述

2、向右偏斜

此时,均值将大于大部分的值。
在这里插入图片描述

3、对称数据

使用均值时最理想的数据分布。
在这里插入图片描述

二、中位数

1、计算方法是按样本值按升序排列,此时若数值总个数为奇数时,则选取最中间的数值,若数值总个数为偶数时,则选取最中间的两个值的均值。
2、优点是不会受到异常值的影响,更容易获取位于数据集中区的值。
3、缺点是当一批数据集中包含两组数据时,此时添加一些样本,可能会使中位数出现巨大的波动,从而产生误导性。在这里插入图片描述

三、众数

1、计算方法是从数据集中选取频数最大的数值,也就是最常见的数值,并且众数可以同时有多个,比如一批数据集中多个组具有相同的最高频数。
2、优点是是众多平均数之中唯一可以用于类别数据的算法,同时也适用于数值数据的使用。
3、缺点是当一批数据集中众数个数过多时,将没有很大的作用。在这里插入图片描述

四、三种平均数的共性

对于同一批数据集,对每个样本值同时添加2000或增长10%,那么三种平均数也会一同添加2000或增长10%,无法因为这种操作而厚此薄彼。

五、平均数的选取可能产生人为的误导

在这里插入图片描述在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值