点击蓝字 关注我们
在统计学内主流的检验类方法一种为参数类检验、一种为非参数类检验。参数类检验方法依据的理论参数是正态分布的参数。那么如何区分数据是否符合正态分布?如何使用SPSS软件判断参数的正态性?感兴趣的小伙伴跟小室一起学习下去吧~
本期目录:
一、正态性检验的目的
二、案例分析
三、SPSS操作
四、正态性检验的实际应用
一正态性检验的目的
如果一组观测值来自正态总体,具有正态分布的特性,那就称该组观测值具有正态性。数据分析时需要执行的关键步骤之一是判断数据的正态性(Normality)。
统计分析拿到数据后,首先,研究者找到研究的目标变量,特别是主要结局指标(Primary outcome)。接着,评价结局指标是何种类型的(定量还是定性或者等级)。如果是定量数据,正态性则是接下来需要研判的内容了。数据可根据变量的属性分为正态分布数据和偏态分布数据。
此外,在实际分析中,我们往往会将数据其分为正态分布数据、近似正态分布数据和严重偏态分布数据。
正态分布数据
非正态分布数据(偏态分布)
正态分布还是非正态分布的研判非常重要。统计分析时,如果变量值呈正态分布,统计描述采用均数±标准差,假设检验可采用t检验、F检验(方差分析);如果变量值呈偏态分布,则要采用中位数(四分位数间距)[M(IQR),或M(P25,P75)], 假设检验方法上,非参数检验更合适,例如Mann-Whitney U 秩和检验。
二
案例分析
案例采用人民卫生出版社《医学统计学》第四版,第34页,例3-7
为研究新药阿卡波糖对血糖控制效果,将20名患者随机分到实验组(阿卡波糖组)和对照组(拜唐苹组),分别测得实验开始前和实验8周后的空腹血糖,算得的空腹血糖下降值(mmol/L)见下表:
思考
1.本案例由几个变量组成?研究的关键变量是什么?是什么类型的数据?
本案例包括2个变量,一个是空腹血糖下降值(mmol/L),另外一个是分组变量实验组(阿卡波糖组)和对照组(拜唐苹组)。主要研究的结局指标是空腹血糖下降值,定量数据。
2.统计分析策略
数据的正态性问题,可从两个层面来探讨。第一个层面是所有空腹血糖下降值放在一起的整体正态性,另外一个层面是实验组(阿卡波糖组)和对照组(拜唐苹组)两组数据各自正态性。前者称为单样本正态性,后者为两样本正态性。
三
SPSS操作
1. 正态性检验界面:分析—描述统计—探索
2.单样本正态性检验界面
(1)因变量列表(dependent variable):这一选框选入检验变量、或者结局变量(是希望去探讨的目标变量)
(2)图:见下图:
(1)茎叶图和直方图,两者都√上。特别是直方图,可以直观地看出数据的分布形态。
(2)含检验的正态图:这一选项即进行正态性检验。
3.单样本正态性分析结果及解释
SPSS 提 供 两 种 正 态 性 检 验 结 果 , 分 别 是 柯 尔 莫 戈 洛 夫 - 斯 米 诺 夫 ( Kolmogorow- Smironov,KS)检验,另外一个是夏皮洛-威尔克(Shapiro-wilk,SW)。二者结果均有统计量(statistic),df(自由度),显著性(sig., P值)。
一般大样本(2000以上)选择KS法,小样本(2000以下)选择SW的方法,本例亦是如此。事实上,可能大部分研究正态性检验选择SW检验方法。正态性检验最重要的是看“显著性”。
如果P值>0.1,那么此单样本呈正态分布,如果P值<0.1,则此单样本呈非正态分布
因此,本例结论是,P=0.561>0.1,差异没有统计学意义,还不能说明该样本的总体分布是偏态分布,可以认为该空腹血糖下降值正态性是符合的。
此外,直方图能够较直观判断数据分布特征。可以看出,空腹血糖下降值大致属于中间多两边少的正态分布。
4.多样本正态性检验界面
(1)多样本正态性与单样本正态性检验相似,但“探索”界面稍有不同,需要将分组变量放入因子列表中
(2)因变量列表(dependent variable):这一选框选入检验变量、或者结局变量(是希望去探讨的目标变量)
(3)图:见下图:
5.多样本正态性检验结果及解释
经SW检验,结果为:阿卡波糖组P=0.753,拜唐苹组P=0.775,没有统计学意义,两组数据正态性均符合。
它们各自的直方图如:
四
正态性检验的实际应用
正态性检验,特别是SW检验,是统计分析基础的工作,任何时候拿到定量数据,第一反应应是考虑数据的分布,进行探索性的分析,看是否符合正态性。
不过,值得注意的是,正态性检验虽然严谨,实际应用上,可能并不是作为数据正态性判断的唯一依据。特别是较大样本时,P <0.1的正态性检验结果并不能认为就是偏态分布而采用非参数检验的方法。
实际统计策略方面,诸位可以将数据分布分为三类:正态分布、近似正态分布数据和严重偏态分布数据。
第1类:正态分布符合,P>0.1;
第2类:正态分布不符合,P<0.1,但直方图还是呈现大致的中间多两边少,无严重极端值;
第3类:正态分布不符合,P<0.1,数据严重偏态,或者存在明显极端异常值,下图中左图存在严重极端值,右图严重偏态分布
一般情况下,前两类仍然可以用均数及标准差描述,用t检验和F检验进行统计推断,后者须用非参数检验。
判断数据正态性的一种主观性的思路是,直接看数据的均数和标准差大小。如果一组正态分布的数据观察值全部是正值,一般来说,均数要远远大于标准差。也就是说如果标准差大于均数,那么数据极大概率是偏态数据
判断数据正态性的另外一种主观性的思路是,看每组的例数,一般每组例数大于50例,我们也可以把数据看做近似正态,例如,3组随机对照实验,每组60名患者,一共180例,我们就可以采用针对正态资料的单因素方差分析。
不过,两种主观判断方式并不绝对严谨,还是需要把三种方法结合起来使用。
总结来说,判断数据正态性,需要结合直方图和正态性检验,将数据分布分为三大类,在此基础上分别选择不同的统计方法进行统计描述和统计推断。
END
排版| 王颖、吴君君
撰稿|许文魁
编审|胡荣
点亮“在看”不迷路~