目录
一、前言
在下篇我们来介绍关于偏峰度与相关系数的统计量的介绍
二、正文
Ⅰ.偏度和峰度
①偏度
偏度(Skewness)可以用来度量随机变量概率分布的不对称性。
公式:
几何意义:
偏度的取值范围为(-∞,+∞)
当偏度<0时,概率分布图左偏。
当偏度=0时,表示数据相对均匀的分布在平均值两侧,不一定是绝对的对称分布。
当偏度>0时,概率分布图右偏。
② 峰度
峰度(Kurtosis)可以用来度量随机变量概率分布的陡峭程度。
公式:
几何意义:
峰度的取值范围为[1,+∞),完全服从正态分布的数据的峰度值为 3,峰度值越大,概率分布图越高尖,峰度值越小,越矮胖。
Ⅱ.相关系数
🔺补充说明
在了解俩个相关系数之前让我们先来直观的理解协方差,协方差是对于两个变量而言,如下我们给出公式:
理解: 如果 X 、 Y 变化方向相同,即当 X 大于(小于)其均值时, Y 也
大于(小于)其均值,在这两种情况下,乘积为正。如果 X 、 Y 的变化方向一直
保持相同,则协方差为正;同理,如果 X 、 Y 变化方向一直相反,则协方差为负;
如果 X 、 Y 变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么
累加后正负抵消。
①皮尔逊系数
皮尔逊系数是用于度量两个变量X和Y之间的相关性(线性相关),其值介于-1与1之间。
皮尔逊系数是:两个变量之间的协方差与两个变量之间的标准差的乘积的比,即:
皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将 X 和 Y 标准化后的协方差。
▲注意
- 非线性相关会导致线性相关系数很大。
- 离群点对相关系数的影响很大。
- 如果两个变量的相关系数很大也不能说明两者相关,可能是受到了异常值的影响。
- 相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)
②斯皮尔曼
斯皮尔曼相关系数评估两个变量之间的单调关系(不是严格的线性关系,评估的是等级之间的关系,把皮尔逊的具体值换成了斯皮尔曼的等级)。
一个数的等级,就是将它所在的一列数按照从小到大排序后,这个数所在的位置 。
将观测等级与平均等级做差,如果有的数值相同,则将它们所在的位置取算术平均。
因为是评估单调关系,所以斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。
③比较
1.皮尔逊评估的是两个变量的线性关系,而斯皮尔曼评估的两变量的单调关系。
2.连续数据,正态分布,线性关系,用 pearson 相关系数是最恰当,当然用
spearman 相关系数也可以, 就是效率没有 pearson 相关系数高。
注:斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系
(例如线性函数、指数函数、对数函数等)就能够使用。
三、结语
对于数据描述的统计量到这里就结束了,希望能对你有所帮助。