集中趋势的应用——基于集中趋势识别“种子选手”

内容导入:

大家好,这里是每天分析一点点。本期给大家介绍的是数据分析基础系列,主要给大家介绍描述性统计分析原理,包括中位数、众数、平均数、方差、标准差、离散系数、偏度峰度、离群值等的原理、概念以及应用。再结合运动员案例分析,讨论不同场景下的运动员挑选方案,根据集中趋势指标计算结果解释原因。文章内容适合数据分析小白,内容深入浅出,案例贴合实际。下期给大家介绍离散趋势的应用,欢迎大家关注。

概念介绍:

集中趋势的概念:

数据的集中趋势指数据向某一中心靠拢的程度,反映了一组数据中心点的位置所在。用来反映数据的一般水平,常用的指标有平均值、中位数、分位数和众数等。通常来讲,就是咱们口中经常提及的“大多数人”,“大部分情况”等字眼,反映的就是数据的集中情况。

平均值的原理:

平均值是指一组数据相加后除以数据的个数得到的结果,是集中趋势的最主要测度值,主要适用于数值型数据,不适用于分类数据和顺序数据,是进行统计分析和统计推断的基础,从统计学上看,平均数是一组数据的重心所在,是数据误差相互抵消后的必然结果。平均值又分为简单平均数,加权平均数与调和平均数。

中位数的原理:

中位数是一组数据排序后处于中间位置上的变量值,将全部数据等分成两个部分。每部分包含 50% 的数据,不适用于分类数据,中位数是一个位置代表值,不受数据中极端值的影响。

众数的原理:

众数是一组数据中出现次数最多的变量值,一般在数据量较大的情况下,众数才有意义,众数是一个位置代表值,不受数据中极端值的影响,众数可能不存在;也可能存在多个众数。

特别提示:

平均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较大的偏差。中位数不受极值影响,因此对极值缺乏敏感性。众数可能不止一个,众数不仅能用于数值型数据,还可用于非数值型数据,不受极值影响。

计算与应用方式:

平均数的计算与应用:

1、简单平均数:数据和值除以数据个数。

计算公式:

 

计算实例:假设一个班的年龄为10,11,12,13,14,15,16,17,现在计算这个班的年龄平均mean=(10+11+12+13+14+15+16+17)/8=13.5

2、加权平均数:数据乘以权值除以数据个数。

计算公式:

 

计算实例:经过统计,我学校学生年龄为10,11,12,13,14,15,16,17,相对应对的学生个数为5,6,7,8,9,10,11,12,求全年级的年龄平均。weight_mean=(10*5+11*6+12*7+13*8+14*9+15*10+16*11+17*12)/(5+6+7+8+9+10+11+12)= 14.12

3、几何平均数:n个数据相乘,再开n次方。

计算公式:

 

计算实例:股票收益分布为10,11,12,13,14,15,16,17,计算其几何平均数。add_mean=(10*11*12*13*14*15*16*17)开8次方=13.3

4、平均值的具体应用。

平均值通常用于衡量事物对的整体水平,比如通过国家平均收入判断整体小康情况,通过地区平均收入看地区发展情况,通过班级平均分数衡量班级整体水平。具体应用,咱们通过生动的小视频给大家进行介绍。

众数的计算与应用:

1、众数的计算

众数,直接统计数据出现的频次,频次最高的那几个数就称为众数。

计算实例:一个班的年龄如下:17, 11, 15, 13, 13, 13, 13, 14, 12, 12,12,12, 10, 16,计数发现,13这个数出现了4次;12这个数出现了4次因此,数据的众数为12与13。

2、众数的具体应用

众数通常用来衡量某个事物的一般水平,具有指导意义。比如在12点左右吃饭的人数最多,餐厅需要把握好时间段多准备食材;地铁7-8点最挤,旅游出行避开早高峰;日本50岁以上人口占比最大,人口老年化严重。学霸数学分数通常在135-145之间,这次考试成绩在140左右。具体的应用拓展来看看我们能的小视频,希望能给各位看官新的领悟。

中位数的计算与应用:

1、中位数的计算

中位数的计算分为两种情况。首先将数据进行排序,排序后取‘中间’的那一个数。

 

 

计算实例:一个班的年龄如下:17,11,15,13,14,12,10,16,先进行排序,变成10,11,12,13,14,15,16,17 ,数据位数为8,偶数位数据中位数为第四位与第五位的平均值median=(13+14)/2,中位数为13.5。

2、中位数的具体应用

中位数及其衍生的应用十分广泛,首先,中位数将数据分为等数量的两份,可以延伸为多分位分类来进行等级的划分和数据的取舍,实际应用类似奖项的设置,等级的分类。另外,中位数也是一个排名的信息,可以查看个体在总体中的位置。最后,某些分布比如正态分布的中位数,代表了数据的集中趋势。更多的实例,我们在视频中给大家进行解答。

综合应用场景:

甲乙两个运动员都是中等水平,各连续打靶8次,请问哪个运动员的整体水平高?

如果进行一场省级比赛,对手较弱,在甲乙中选择你会派谁去?

如果进行一场国家级比赛,对手较强,在甲乙中选择你会派谁去?

甲乙连续打8次靶,按先后顺序记录如下:

甲运动员:[8,7,8,9,9,8,7,8] 。

乙运动员: [5,6,6,7,7,10,10,10]。

通过计算,得出的集中趋势结果入下表所示:

1、 请问哪个运动员的整体水平高?

由于不知道数据的分布情况,中位数与众数不一定代表整体水平,从平均值来看,甲的平均值为8,乙的平均值为7.625,所以甲的整体水平较高。

2、 如果进行一场省级比赛,对手较弱,在甲乙中选择你会派谁去?

一场省级的比赛,对手较弱,甲乙的水平机会都在其他运动员之上,因此比赛应该求稳,选择水平较高的甲去。

3、如果进行一场国家级比赛,对手较强,在甲乙中选择你会派谁去?

如果进行一场国家级比赛,对手实力强劲,都在甲乙之上,因此选择水平高的甲去没有什么意义。反而看乙的数据,中位数与甲相同,平均数比甲低,但是他的众数10远大于甲,如果他超常发挥,有概率能得到名次。并别看乙的成绩序列,从一开始逐渐发挥,乙有很大的上升空间,通过训练,可能会取得更好的成绩。

当然,你选甲去,也是可以有道理的,从乙的发挥来看,乙的心理素质差,在打比赛中可能会更加紧张,导致发挥失常。因此,选甲去即使去了可能也不会输的太难看。

 

各位看官,今天看得过瘾吗?还没有结束,我们为大家准备了集中趋势的相关python代码案例,作为小礼物送给大家,更多内容,请关注海数据公众号。

有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

关注码

http://weixin.qq.com/r/40Q9Jd-EHoJhrZtG9xHx (二维码自动识别)

 

本期分享到这里,我们会在每周持续更新,咱们下期再见,期待您的光临。

©️2020 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页