《白话统计》笔记之正态性与方差齐性

写在前面:不得不说《白话统计》这本书真的太赞了,它让我再次感受到统计的魅力,我觉得一个高水平的人是能够把知识以通俗易懂的方式表达出来,这让我兴奋,真的推荐大家去看下。

1. 什么是正态性和方差齐性 

正态性(Normality),严格来说是残差要复合正态分布,不过实际中很多人直接对因变量采用正态性检验,多数情况下二者差不多。

方差齐性(Equality of Variances),也就是方差相等。对于每一个x取值,因变量y或者说其残差基本相等。

 

2.为什么要进行正态性检验和方差齐性检验

正态性和方差齐性是经典统计模型应用的两个前提条件,如t检验、方差分析、线性回归都需要满足这两个条件。

实际中这两个条件并不十分苛刻,根据这两个概念简单理解就是,我们在进行t检验或者方差分析时需要看下这个数据的“正态不要偏得太严重”和“各组方差不要差得太大”就行了。

 

3. 如何进行正态性的检验

3.1 统计检验方法

(1)基于峰度和偏度的SW检验

SW检验,即Shapiro-Wilk检验,主要通过峰度和偏度来说明是否符合正态分布。

峰度,来描述分布形状是平坦还是尖峰。

偏度,来描述分布形状是否对称。

对于正态分布而言,其峰度和偏度都为0。如果某个分布的峰度大于0则表示为尖峰,小于0则表示为平坦峰。如果偏度大于0,则表示右偏态(正偏态),如果偏度小于0,则表示左偏态(负偏态)。

 

(2)基于拟合优度的KS、CVM和AD检验

拟合优度的主要思想是,计算理论(正态)分布与基于数据得到的分布之间的差异,差异小则说明实际分布为正态分布。

正态分布的拟合优度检验思路是:先求出正态分布的累积概率函数,然后看一下样本数据与该函数差异有多大。

KS(Kolmogorov-Smirnov)、CVM(Cramer-von Mises)和AD(Anderson-Darling)这三种检验都是基于这一思想,区别在于对“差异”的定义:KS采用理论分布与实际分布差别的绝对值,CVM是差别的平方,AD则对CVM进一步改进。

 

3.2 描述性方法

有时候通过统计检验的方法并不能得出真实数据是否满足正态分布的结论,因此我们还需要一些描述性方法进行判断。

(1)Q-Q图和P-P图

Q-Q(Quantile-Quantile)图,即分位数-分位数图。在Q-Q图中,横坐标是正态分位数,纵坐标是实际数据的分位数。如果符合正态分布,那么图中所有的点应该呈现出一条直线。

P-P(Probability-Probability)图,和Q-Q图类似,只是采用的是累积概率。

 

(2)茎叶图

(3)利用四分位数间距和标准差进行简易判断

 

4. 如何进行方差齐性的检验

4.1 方差分析中的方差齐性判断

方差分析中的方差齐性检验,就是判断两组或者多组的方差是否相等。

(1)方差比(F ratio):先算出两组的方差,然后用大的除以小的,如果F值很大,则说明两组方差较大,可以认为方差不等。

(2)Hartley检验主要用于多组方差齐性的检验,用最大的方差除以最小的方差得到F值。

(3)Levene检验:基于每一组内的每一个观测值与各组均值的偏离程度。如果均值换成中位数和截取平均数,方法演变为BF法。

不同方法在数据分布服从正态分布的时候结论一致,但是如果数据分布是偏态的,则无法保证。

 

4.2 理解线性回归中的方差齐性

(1)BP(Breusch-Pagan)法

一般线性回归中每个x仅对应一个y,无法计算方差,我们可以分析某个x的一定取值范围内对应的y的方差,通过绘制散点图来观察其方差是否有差异。

BP法主要是通过构建y与x的线性回归模型y=a0 + a1x1 + a2x2,如果其对应的系数ai为0则表明满足方差齐性。

 

(2)White检验

White检验的思想和BP检验的思想差不多,只是White检验考虑了各个变量的高次项这种非线性趋势。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值