【统计学 第二周】描述性统计

梳理大纲: 描述性统计
【1】集中趋势:众数、中位数、分位数、平均数等
【2】离散程度:数值型数据、顺序数据、 分类数据、相对离散程度
【3】分布的形状:偏态系数、峰态系数
【4】补充:相对位置的量度(标准分数,经验法则,切比雪夫不等式)

参考资料:
《统计学 第七版》第四章-数据的概括性度量
《可汗学院 统计学视频》 第1,2,11,15,16集

From 统计学Statistics 学习小组:由【木东居士】公众号 定期发起
对数据感兴趣的伙伴们 可一同在此交流学习

数据分布的特征:可从四方面进行测度和描述
【1】分布的集中趋势:反应各数据向其中心值靠拢或聚集的程度;
【2】分布的离散程度:反应各数据原理其中心值得趋势
【3】分布的形状:反应数据的偏态和峰态
【4】补充:相对位置的量度(标准分数,经验法则,切比雪夫不等式)

———————————————————————————————————

【集中趋势的度量】

反应各数据向其中心值靠拢或聚集的程度

以下为各类数据的常用度量:
1.分类数据 :众数
主要用于测量分类数据的集中趋势
优势:不容易受极端值影响
(注意:一般只有数据量大的情况下,众数才有意义)

2.顺序数据:中位数和分位数
(注意:计算顺序数据时,要先排序)

3.数值型数据:平均数
(备注:平均数是一组数据的重心所在,是数据误差相互抵消后的必然结果)

简单平均数:( Σ求和后 ) / 总数量
在这里插入图片描述
加权平均数:[ Σ(各数字*对应权重数) ] / 总数量
在这里插入图片描述
几何平均数:( ∏ n个数值 ) 的n分之一次方
—— 适用于特殊数据,主要用于计算平均比率(当变量值本身是比率形式时,采用几何平均法更为合理)
在这里插入图片描述
—— 在实际运用中,几何平均数主要用于计算现象的平均增长率:
在这里插入图片描述
调和平均数:各值倒数之和的平均数的倒数
在这里插入图片描述
—— 在实际运用中,调和平均数主要用于总量相同,但是效率不同时的平均效率(如相同的距离 使用不同速度完成的平均速度)
在这里插入图片描述

单峰分布的情况下,众数,中位数和平均数的位置情况:
(注意:也会有极限的情况,比如在左偏分布中,中位数在均值的左侧)
在这里插入图片描述
众数,中位数和平均数的优缺点比较:
在这里插入图片描述

———————————————————————————————————

【离散趋势的度量】

反应各数据原理其中心值得趋势
离散程度越大,集中趋势的测量度对该组数据的代表性就越差;反之同理

以下为各类数据的常用度量:
1.分类数据:异众比率 (顺序数据和数值型数据 亦可以使用)
非众数组的频数占总频数的比例:衡量众数对于一组数据的代表程度
注:异众比率越小,众数的代表性越好
在这里插入图片描述

2.顺序数据:四分位差(亦称内距或四分位距)
反应中间50%数据的离散程度 (不受极值的影响)
注:四分位差数值越小,说明中间的数据越集中,反之同理

*3.数值型数据:
极差:max-min
平均差(类比标准差):反映了每个数据与平均值的平均差异程度
平均查越大,数据离散程度越大
在这里插入图片描述
在这里插入图片描述
方差和标准差
注意:样本方差的分母需要使用(n-1),(n-1)称为自由度
在这里插入图片描述
样本标准差 与变量的计量单位相同,实际意义比方差清楚;所以实际问题常用标准差进行分析
在这里插入图片描述
相对离散程度:离散系数
对比 方差和标准差 的局限性:
【1】方差/标准差 受原变量水平高低的影响(原变量值绝对水平较大,则方差/标准差值越大)
【2】与原变量的计量单位相同,采用不同计量单位计量的变量值,离散程度的测度值不同
因此,对于 平均水平不同计量单位不同 的不同组别变量值,不能直接用标准差比较其离散程度

离散系数(变异系数):一组数据中 标准差与平均数的比值
在这里插入图片描述
可用于比较不同样本数据的离散程度
离散系数越大,离散程度就越大
在这里插入图片描述

———————————————————————————————————

【偏态与峰态的度量】

要全面地了解数据,除了了解数据的分布特点,还要知道数据地分布形状

偏态:对于数据分布对称性的测度
统计偏态的统计量:偏态系数
偏态系数的计算公式:
在这里插入图片描述
在这里插入图片描述

  • 偏态系数>0:右偏(正偏)分布,反之同理
  • abs(偏态系数)>1:称为高度偏态分布
  • 0.5<abs(偏态系数)<1:中等偏态分布
  • abs(偏态系数)越接近0,偏斜程度越小

峰态:对数据分布平峰或者尖峰程度的测度
统计偏态的统计量是 峰态系数
注:峰态通常是与标准正态分布相比较而言的:如果一组数据符合标准正态分布,则峰态系数的值等于0;否则,该分布可能是平峰分布或者尖峰分布

峰态系数的计算公式:
在这里插入图片描述
在这里插入图片描述

  • K>0:尖峰分布
  • K<0:扁平分布

———————————————————————————————————

相对位置的量度

(标准分数,经验法则,切比雪夫不等式)

标准分数(亦称z分数):变量值与平均值的离差 / 标准差
在这里插入图片描述
例如:一个数据的标准分数为-1.5,那我们就知道该数据比平均数低1.5个标准差
注:标准化后,将变成平均数为0,标准差为1的一组数据

在这里插入图片描述
经验法则:
当一组数据对称分布时,经验法表明:
在这里插入图片描述

  • 一般情况,在平均值±三个标准差区间内,几乎包含了所有的数据
  • 三个标准差外的数据,统计上称为离群点

切比雪夫不等式:
如果一组数据不适合对称分布,可以使用切比雪夫不等式(提供的是下界)
至少有(1-1/k^2)百分比的数据落在±K个标准差之内,其中K是大于1的任意值,但不一定是整数
在这里插入图片描述
———————————————————————————————————

【知识点整理如上,之后回来温习时,再使用Python代码实现一遍 ^ _ ^】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值