【数据挖掘数学基础】01描述统计(下)

本文介绍了数据挖掘中描述统计的重要概念,包括离散程度的衡量指标如极差、平均差、方差和标准差,以及离散系数。同时,探讨了偏态和峰态的概念,用于评估数据分布的对称性和扁平程度。内容涵盖了相关公式、应用和解释。
摘要由CSDN通过智能技术生成

目录

四、离散程度

1、定义:反映各变量值远离其中心值的程度,是数据分布的一种重要特征,从另一个侧面说明了集中趋势测度值的代表程度。

2、常见指标:

2.1极差:一组数据最大值与最小值之差;

2.2平均差:各变量与其均值离差绝对值的平均数;

2.3方差和标准差:方差是平均差的平方,标准差是方差的算数平方根。方差和标准差还分总体和样本两种。这两个指标是计算数据离散程度最常用的指标。

2.4离散系数:又称变异系数,是标准差与均值之比。

五、偏态与峰态

1、偏态:是值数据分布偏斜程度,由K Pearson(卡·皮尔逊)提出。符号:SK。

2、峰态:是指数据分布的扁平程度,也是有K Pearson提出。符号K表示。


四、离散程度

1、定义:反映各变量值远离其中心值的程度,是数据分布的一种重要特征,从另一个侧面说明了集中趋势测度值的代表程度

2、常见指标:

2.1极差:一组数据最大值与最小值之差;

  • 符号:R
  • 公式:R=max(xi)-min(xi)
  • 理解:是测度离散程度的最简单的方法,但极易受极端值的影响,且未考虑数据的分布。

2.2平均差:各变量与其均值离差绝对值的平均数;

  • 符号:Md
  • 公式:未分组数据:

                   分组数据:(Mi :组中值)

  • 理解:平均差是一个很好能表现数据离散程度的值,Md越大数据越分散;但因为公式中有绝对值,在数学公式运算中,一般绝对值都尽量要想办法去掉,所以该公式的数学性质较差,一般在实际应用中很少用,那是否有能保留该公式的特征又可以约减绝对值呢,平方就能解决这个问题,所以便有了方差。
  • 注意⚠️:标准差和平均差的公式是不一样的,不要搞混淆了。

2.3方差和标准差:方差是平均差的平方,标准差是方差的算数平方根。方差和标准差还分总体和样本两种。这两个指标是计算数据离散程度最常用的指标。

  • 符号:总体方差:σ2,总体标准差:σ

                  样本方差:s2,样本标准差:s 

  • 公式:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值