怎么计算一组数据的波动_数据分布特征的描述

08c25369864fc899b2b6a75a7ff8b4ae.png

85e56f7c5feeeca0ef70fe3fed93f90b.png

数据分布特征的测度

be9c199d39477ebb5c95e850d733c0b8.png

集中趋势

00be145237b9c3d7420978e43da71143.png

4562d954739e1cbe7743a83c82f5d58d.png

2a2e488672fa3955fe66ab1814867eaf.png

权数

权数可以是绝对数形式,也可以是比重形式。

a9a8186307a531419f6397424ce498c8.png

平均数为了排除极端值的干扰,可计算切尾均值。

863c5339cfd0b558de7dab03bd6ad5b3.png

几何平均数(Geometric mean)

几何平均数有简单几何平均数和加权几何平均数之分。

-简单几何平均数

93e6b9af43ecfdd496e8b36f30466bf0.png

-加权几何平均数

e528aeb502187949ce2f570aea0e73c7.png

377ccbbd40ee60bf8361859d46956719.png

众数

众数是一组数据中出现频数最多、频率最高的变量值,常用Mo表示。

19a217992fab4d7c997188164c233672.png

1.一组数据中出现次数最多的变量值

2.适合于数据量较多时使用

3.不受极端值的影响

4.一组数据可能没有众数或有几个众数

5.主要用于分类数据,也可用于顺序数据和数值型数据

中位数

将总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志值,用Me表示。

中位数所在的位置为:

1.不受极端值的影响在有极端数值出现时,中位数作为分析现象中集中趋势的数值,比平均数更具有代表性

2.主要用于顺序数据,也可用数值型数据,但不能用于分类数据

3.各变量值与中位数的离差绝对值之和最小

四分位数

1.对数据进行排序,然后确定四分位数所在的位置,该位置上的数据就是四分位数

2.25%和75%位置上的四分位数位置的确定方法为:

25%分位数位置:

75%分位数位置:

bcf9c9ed3b27c17bedaff12741bc1f5b.png

还有:十分位数、百分位数

众数、中位数和算术平均数的关系

ce2ad5ca03c4af13257404101c91247c.png

众数、中位数、平均数的特点和应用

1.众数

  • 不受极端值影响
  • 具有不惟一一性
  • 数据分布偏斜程度较大且有明显峰值时应用

2.中位数不受极端值影响

  • 数据分布偏斜程度较大时应用

3.平均数

  • 易受极端值影响
  • 数学性质优良
  • 数据对称分布或接近对称分布时应用

总体分布离散程度的测定

1.极差

指所研究的数据中,最大值与最小值之差,又称全距。

2.四分位差

3.方差 4.标准差

总体时的方差,标准差

未分组资料时,方差的公式为:

e408aa63cb505c1b79c9933c80890d22.png

标准差的公式为:

31162ce7e93a5eb0dd7aaa2c279f3362.png

分组资料时,方差的公式为:

503ac780f8e3fd9b43d8de4fcf8e0a78.png

标准差的公式为:

51b42f26e236b478a8cc0091fbb64759.png

样本方差和样本标准差

08d4aa99edddc36b047e5e26ceb9fdc0.png

62aa903fcbffe29176b469dec1f2e382.png

c05420bf2f73f3f2992e26313b5ff0b4.png

5.离散系数

离散系数:标准差与其相应的均值之比,用于比较两组数据的波动程度

计算公式为

df9ece958f7c90d41794ba6431cd8ffd.png

6.标准分数

数据的标准化:

1.对某一个值在一组数据中相对位置的度量

2.可用于判断一-组数据是否有离群点

3.用于对变量的标准化处理

4.均值等于0,方差等于1

协方差与相关系数

  • 二元随机变量(X,Y ):

样本协方差 :

Y样本相关系数:

随机样本

样本协方差 :

63b083edb3ac924fb5b45bf2de30d18e.png

样本相关系数 :

协方差与独立性

  • X和Y是不相关/线性独立的
  • 如果X和Y服从二元正态分布,那么
    X和Y是独立的
  • 是在样本空间中,两个经过中心化的n维向量
    的夹角余弦
  • 不相关的变量对应的n维样本向量是正交的( orthogonal )

分布形状的度量

76de056b25df516cc6fe6d8ae46ba65a.png

偏态系数

1.Pearson偏度系数是以标准差为度量单位计算的众数与算数平均数的离差,其计算公式是:

SK通常取值为-3~+3之间,其绝对值大,表明偏斜程度大反之表明偏斜程度越小。

  • 当SK=0时,分布为对称分布;
  • SK<0时,分布呈左偏分布,或称负偏态;
  • SK>0时,分布呈右偏斜分布,或称为正偏态

2.矩法偏度

Pearson偏度系数的思想比较容易理解,但精度程度不高。矩法偏度计算方法能够弥补这-不足,其计算公式是:

  • 当SK=0时,分布为对称分布;
  • SK<0时,分布呈左偏分布,或称负偏态;
  • SK>0时,分布呈右偏斜分布,或称为正偏态。

峰态系数

在社会经济现象中,许多变量数列的分布曲线与正态分布曲线相比,其顶部的形态会有所不同,而这种差异通常具有重要的社会经济意义。

峰态系数就是反映数据分布峰值的高低,可以用来说明数据分布曲线的顶端尖削或扁平程度。以正态分布为参照标准,比正态分布尖削的分布为尖峰分布,比正态分布扁平的分布为平顶分布。

8919b55db8f0cb8a7378c45164f72944.png

峰态系数

峰度的测量指标,常常可用标准差的四次方除以四阶中心矩的方法来计算,计算公式是:

94b5c63b10ed6ca40b1f7bce833e4188.png
  • 当β=3时,数据的分布峰度表现为与正态相同;
  • 当β>3时,为尖顶分布,表明数据分布曲线的顶部较正态分布曲线更为陡峭,且越大,顶部就越陡峭;
  • 当β<3时,为平顶曲线,表明数据分布在众数附近比较分散,使得频数分布曲线的峰顶较正态分布曲线平缓,且值越小,顶部就越加平坦。
  • 6
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值