数据挖掘之统计学基础(1):【理论】描述性统计

 

0x00前言

描述性统计是一种汇总统计,用于定量描述或总结信息集合的特征。描述性统计的对象既可以是总体,也可以总体的一部分即是样本。 

描述性统计分为集中趋势和离散趋势。

0x01集中趋势

集中趋势又称 “数据的中心位置”,集中趋势反映了数据向其中心值聚集的程度,是对数据一般水平的概括性度量,主要通过平均值、中位数和众数来表示。

1.众数

出现频次最高的观测值。

例子:数据集['a', 'a', 'b', 'c', 'c', 'c', 'd']的众数是'c'。 

优点:不受极端值影响,可应用于定性数据。
缺点:一组数据可能不存在众数,有时一组数据可能会有一个以上的众数。
使用场景:当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用, 由于可能无法良好定义算术平均数和中位数.

2.中位数

按大小顺序排列的数据组之中点位置对应的数值,该数值把数据组分成两半。

例子:数据集[777, 888, 4, 999, 5, 66, 1, 2, 3]的中位数是5。

优点:不受极端值影响。
缺点:需要对数据排序,对大样本将非常繁琐。
使用场景:当一组数据中的个别数据变动较大时, 常用它来描述这组数据的集中趋势.

3.分位数

分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。

优点:不受极端值影响。
缺点:数据信息量不充分。
使用场景:排名百分比(如成绩排名前10%的学员)、箱线图、分位数回归等。

1)二分位数

对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数,即二分位数。

例子

  • 数据集[1, 2, 3, 4, 5]的二分位数是3。
  • 数据集[1, 2, 3, 4, 5, 6]的二分位数是3.5。

2)百分位数

百分位数,统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。

例子:数据集[6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36]
25%分位数是15,50%分位数是40,75%分位数是43。

4.平均数

平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。

优点:充分利用数据全部信息,一组数据只有一个平均数并且组中每个数据的变化都会影响平均数。
缺点:容易受极端值影响。 

1)算术平均数

算术平均数是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。

 

例子:数据集[1, 2, 3, 4, 5, 6]的平均数是3.5。

使用场景:数据在各项的权重相等。

2)加权平均数

加权平均数是不同比重数据的平均数,加权平均数就是把原始数据按照合理的比例来计算。

平均数是加权平均数的一种特殊情况,即各项的权相等时,加权平均数就是算术平均数。

 

例子:数据集[1, 2, 3, 4, 5],对应的权重是[0.1, 0.3, 0.2, 0.4, 0.1]
加权平均数=(1*0.1 + 2*0.3 + 3*0.2 + 4*0.4 + 5*0.1)/(0.1 + 0.3 + 0.2 + 0.4 + 0.1)=3.0909090909。

权重是一个相对的概念,是针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。权重表示在评价过程中,是被评价对象的不同侧面的重要程度的定量分配,对各评价因子在总体评价中的作用进行区别对待。事实上,没有重点的评价就不算是客观的评价。

使用场景:某一指标的权重是指该指标在整体评价中的相对重要程度, 没有重要性的指标分析是不完善的。

3)几何平均数

几何平均数是对各变量值的连乘积开项数次方根。根据所拿握资料的形式不同,其分为简单几何平均数和加权几何平均数两种形式。 

简单几何平均数:

加权几何平均数:

例子:假定某地储蓄年利率(按复利计算):5%持续1.5年,3%持续2.5年,2.2%持续1年。求此5年内该地平均储蓄年利率。
得到该地平均储蓄年利率:

使用场景

  • 对比率、指数等进行平均;
  • 计算平均发展速度;
  • 复利下的平均年利率;
  • 连续作业的车间求产品的平均合格率。

0x02离散程度

离散趋势反映了数据远离中心值的程度,是衡量集中趋势值对整个数据的代表程度。数据的离散度越大,说明集中趋势值的代表性越低;反之,数据的离散程度越接近于0,说明集中趋势值的代表性越高。数据的离散程度主要通过范围、标准差和方差来表示。

1.数值型数据

1)方差

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。 

σ^2为总体方差,X为变量,μ为总体均值,N为总体例数。

 

优点:方差的计算结果将数据的波动性数值放大,比极差和标准差更为细致、准确、明显。
缺点:增加数据点时,方差的结果会随之增大。
使用场景:计算数据的离散程度,例如通过模型误差的方差来判断模型的泛华能力。 

2)标准差

标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。

优点:表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。另外,在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。
缺点:增加数据点时,标准差的结果会随之增大。
使用场景:标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。 

3)极差

为一组数据的最大值和最小值之差。 

优点:计算十分简单。
缺点:它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异,仅适用样本容量较小(n<10)情况。
使用场景:极差在SPC控制图中有大量应用。 

4)平均差

平均差(Mean Deviation)是表示各个变量值之间差异程度的数值之一。指各个变量值同平均数的离差绝对值的算术平均数。

优点:充分利用数据全部信息。 缺点:绝对值不便于运算。
使用场景:由于平均差采用了离差的绝对值,不便于运算,这样使其应用受到了很大限制。

2.顺序数据:四分位数

四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

  • 第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;
  • 第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字;
  • 第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距。

例子:数据集[6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36]的Q1=15,Q2=40,Q3=43。

优点:四分位数不受极值的影响。
缺点:需要对数据排序,对大样本将非常繁琐。 使用场景:四分位距、异常值判断等。

3.分类数据:异众比率

异众比率又称离异比率或变差比,是指的是非众数的次数与全部变量值总次数的比率,即众数不能代表的那一部分变量值在总体中的比重。

使用场景:异众比率主要用于测度分类数据的离散程度,当然,对于顺序数据以及数值型数据也可以计算异众比率。譬如,我们通过计算求出一项50人调查中,购买其它品牌饮料(指除可口可乐之外的品牌)的人数达到70%的异众比率,异众比率比较大,那么,说明用“可口可乐”来代表消费者购买饮料品牌的状况,其代表性比较差,其众数代表性就不是很明显。 

4.相对离散程度:离散系数

离散系数又称变异系数,是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计 量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

优点:比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。
缺点:当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。另外,离散系数无法发展出类似于均值的置信区间的工具。
使用场景:比较不同样本数据的离散程度。 

0x03分布的形状

1.偏态系数

偏态(skewness)是对数据分布对称性的测度,测量偏态的统计量是偏态系数(coefficient of skewness,SK),是对统计数据分布偏斜程度的度量,是描述分布非对称程度的数字特征。

偏态越大,表示偏斜的程度越大。 

偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。 

 

使用场景:在社会经济现象的计量分析中,许多现象的次数分布并非对称,如果应用偏态系数指标,则可将被研究总体在其平均水平上下次数分布的特征简明扼要地反映出来。 

2.峰态系数

峰态(kurtosis)是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数(coefficient of kurtosis),记作K,是对统计数据分布陡峭程度的度量。通常是与标准正态分布相比较而言。

 

 

使用场景:一项金融资产,设若其预期收益率的峰度较高,则说明该项资产的预期收益率有相对较高的概率取极端值。换句话说,该项资产未来行市发生剧烈波动的概率相对较高。 

参考文献:

[1] 百度百科. https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E7%99%BE%E7%A7%91
[2] https://wenku.baidu.com/view/6382042865ce05087732139f.html. https://wenku.baidu.com/view/6382042865ce05087732139f.html

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值