数据描述的统计量解释-下

目录


一、前言

二、正文

Ⅰ.偏度和峰度

①偏度

② 峰度

Ⅱ.相关系数

🔺补充说明

①皮尔逊系数

注意:

②斯皮尔曼

③比较 

三、结语


一、前言

 

 在下篇我们来介绍关于偏峰度与相关系数的统计量的介绍

 

 

二、正文

 

Ⅰ.偏度和峰度

 

①偏度

 

 偏度(Skewness)可以用来度量随机变量概率分布的不对称性。

 公式:

 

S=\frac{1}{n}\sum_{i=1}^{n}\left [ (\frac{Xi-\mu }{\sigma } \right )^3]

 

几何意义:

偏度的取值范围为(-∞,+∞)

当偏度<0时,概率分布图左偏。

当偏度=0时,表示数据相对均匀的分布在平均值两侧,不一定是绝对的对称分布。

当偏度>0时,概率分布图右偏。

 

② 峰度

 

峰度(Kurtosis)可以用来度量随机变量概率分布的陡峭程度。 

 

公式: 

 K=\frac{1}{n}\sum_{i=1}^{n}\left [ (\frac{Xi-\mu }{\sigma } \right )^4]

 

几何意义:

峰度的取值范围为[1,+∞),完全服从正态分布的数据的峰度值为 3,峰度值越大,概率分布图越高尖,峰度值越小,越矮胖。

 

 

Ⅱ.相关系数

 

🔺补充说明

 

在了解俩个相关系数之前让我们先来直观的理解协方差,协方差是对于两个变量而言,如下我们给出公式:
 

 

Cov(X,Y)=\frac{\sum_{i=1}^{n}(Xi-E(X))(Y-E(Y))}{n}

理解: 如果 X 、 Y 变化方向相同,即当 X 大于(小于)其均值时, Y 也
大于(小于)其均值,在这两种情况下,乘积为正。如果 X 、 Y 的变化方向一直
保持相同,则协方差为正;同理,如果 X 、 Y 变化方向一直相反,则协方差为负;
如果 X 、 Y 变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么
累加后正负抵消。

 

①皮尔逊系数

皮尔逊系数是用于度量两个变量X和Y之间的相关性(线性相关),其值介于-1与1之间。

皮尔逊系数是:两个变量之间的协方差与两个变量之间的标准差的乘积的比,即:

 

\rho= \frac{Cov(X,Y)}{_{\sigma x}\cdot _{\sigma y}}

 

皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将 X 和 Y 标准化后的协方差

 

▲注意
  1. 非线性相关会导致线性相关系数很大。
  2. 离群点对相关系数的影响很大。
  3. 如果两个变量的相关系数很大也不能说明两者相关,可能是受到了异常值的影响。
  4. 相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)

 

 

②斯皮尔曼

 

斯皮尔曼相关系数评估两个变量之间的单调关系(不是严格的线性关系,评估的是等级之间的关系,把皮尔逊的具体值换成了斯皮尔曼的等级)。

一个数的等级,就是将它所在的一列数按照从小到大排序后,这个数所在的位置 。

将观测等级与平均等级做差,如果有的数值相同,则将它们所在的位置取算术平均

 

 r=1-\frac{6\sum_{I=1}^{n}di^2}{n(n^2-1)}

因为是评估单调关系,所以斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。

③比较 

1.皮尔逊评估的是两个变量的线性关系,而斯皮尔曼评估的两变量的单调关系。

2.连续数据,正态分布,线性关系,用 pearson 相关系数是最恰当,当然用

spearman 相关系数也可以, 就是效率没有 pearson 相关系数高

注:斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系

(例如线性函数、指数函数、对数函数等)就能够使用。

 

三、结语

 对于数据描述的统计量到这里就结束了,希望能对你有所帮助。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值