【4.2 集中趋势&离散趋势】(描述性统计分析)——CDA

目录

I.数据的描述性统计

1.1 总量指标、相对指标

1.2 集中趋势的描述——平均指标

1.2.1 众数

1.2.2 分位数

1.二分位数/中位数-​编辑 

2.四分位数

1.2.3 均值(mean)

1. 算术平均数

2. 几何平均数

3. 调和平均数——(用的比较少)

1.2.4 均值不等式

II. 离散程度的描述——变异指标

2.1 变异指标

         2.1.1 极差(range)

2.1.2 平均差(mean deviation)

2.1.3 方差和标准差

2.2 离散系数/变异系数


I.数据的描述性统计

1.1 总量指标、相对指标

总量指标:反映在一定时间、空间条件下某种现象的总体规模、总水平或总成果的统计指标。

eg:营业额、利润等

相对指标:两个有相互联系的指标数值之比。

eg:目标完成率(实际完成/计划完成)、比值

1.2 集中趋势的描述——平均指标

集中趋势(central tendency):一组数据向其中心值靠拢的趋势  (描述数据中心)

测度集中趋势——寻找数据水平的代表值或中心值

根据数据分类,看度量:

  • 分类型数据——众数
  • 顺序型数据——众数、分位数
  • 数值型数据——众数、分位数、均值

不同类型的数据,一定要用不同的方法进行分析。

1.2.1 众数-\large M_{o}

(1)定义:出现次数最多的变量值

(2)表示符号:M_{o}

(3)计算:

寻找数据中出现次数最多的值;

众数的不唯一性,可能有也可能没有。

【Practice】

1.2.2 分位数

如果拿到顺序型数据,可用分位数来度量。 

定义:根据对数据位置进行划分,处于某些特定位置上的数。

分位数:二分位数、四分位数、十分位数、百分位数等

1.二分位数/中位数-\LARGE M_{e} 

(1)定义:数据排序后,处于中间位置上的值  (先排序再找值)

(2)表示符号:\LARGE M_{e}

(3)计算:

数据的个数为n,中位数的位置= \frac{n+1}{2}

【Practice】

 

2.四分位数

(1)定义:分下四分位数、上四分位数 2种。排序后处于25%和75%位置上的值。

(2)表示符号

下四分位数:\large \ \large Q_{L}   上四分位数:Q_{U}

(3)计算

数据的个数为n,则:

下四分位数Q_{L}的位置:\frac{n}{4}

上四分位数:Q_{U}的位置:\frac{3n}{4}

 

 

1.2.3 均值(mean)

如果拿到的是数值型数据,就可计算均值。

  • 算术平均数
  • 几何平均数
  • 调和平均数

1. 算术平均数

(1)定义:数据和与数据个数之比

(2)表示符号:

(3)计算

简单算术平均数(根据未分组数据计算)

加权算术平均数(根据分组数据计算)

 权重 : f1/总数    按照概率来算;f1  / f1+f2+fn

(4)特点:易受极端值影响

示例:

2. 几何平均数

(1)定义:n个变量值乘积的n次方根

一般适用于算增长率、或者利率这些;

(2)表示符号:G

(3)计算

简单调和平均数(根据未分组数据计算)

加权调和平均数(根据分组数据计算)

 

(4)特点

  • 易受极端值影响
  • 常用于增长率数据的研究
  • 所有数据需>0

 

3. 调和平均数——(用的比较少)

(1)定义:变量值倒数的算术平均数的倒数

(2)表示符号:H

(3)计算

简单调和平均数

加权调和平均数

 

(4)特点:

  • .易受极端值影响
  • 常用于效率数据的研究
  • 有一项为0就无法计算H

1.2.4 均值不等式

对于同一组数据,一定满足:

算数平均数 ≥ 几何平均数 ≥ 调和平均数

当所有数据取值相同时,等号成立。(所有样本值相同的时候)

II. 离散程度的描述——变异指标

2.1 变异指标

(1)定义

反映各变量值远离其中心值的程度,是数据分布的另一个重要特征

从另一个侧面说明 集中趋势测度值的代表程度  (数据距离集中区域分散程度)

离散程度越大,均值代表的东西就越少。

 2.1.1 极差(range)

1.定义:一组数据的最大值与最小值之差

这组数据整体处在数轴的什么位置

2.表示符号:R

3.计算

\large R=max(Xi)-min(Xi)

4.特点

离散程度的最简单测度值

极易受极端值影响

未考虑数据的分布

示例:

2.1.2 平均差(mean deviation)

1.定义 :各变量值与其均值离差绝对值的平均数

所有样本值到均值的平均距离 ——平均差

2.表示符号:\large M_{d}

3.计算

4.特点:

  • 能全面反映一组数据的离散程度

平均差越大,代表数据越分散。9

  • 数学性质较差,实际中应用较少  (比如 不可导点)

【Practice】

先算均值,用样本值减去均值

 

2.1.3 方差和标准差

(一)根据总体数据计算的,称为总体方差、总体标准差

(二)根据

   标准差,方差直接开根号

 【样本方差自由度】——计算公式的分母(n-1)

自由度指一组数据中科自由取值的数据的个数

总体有关系的都是定值,确定存在的常数。

 

2.2 离散系数/变异系数

(1)离散系数/变异系数

 

变异系数= 标准差除以均值。

上图结果:离散系数相同

需要对比两件事物的离散程度,是利用变异系数进行对比。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值