基于SPSS的正态性检验方法汇总——以个股收益率为例(超详细)
网上的很多教程讲的比较概括,零基础的小白用起来可能比较困难,本文整理了较详细的使用方法,希望对大家有所帮助。
数据的获取
个股的收益率可从锐思数据库(RESSET)中获取,大多数高校的图书馆已购买。
从图书馆数据库中选择RESSET金融研究数据库。
选择日期和股票代码。
选择需要导出的数据。
然后就可以下载,类型是Excel文件。
将Excel文件导入到SPSS中
以22.0版本为例。
文件—打开—数据,即可选择刚刚从RESSET数据库下好的文件。
确定即可导入数据。
SPSS有两个窗口,一个是数据编辑器,一个是查看器。数据编辑器是原始数据,查看器可以获取数据的信息。
数据编辑器有两个视图,一个是数据视图,一个是变量视图。数据视图和Excel类似,变量视图是各个变量的类型。
数据视图
变量视图
查看器
正态性检验方法
图示法
直方图
直方图可以比较直观观察到数据的正态性,但是不够精确。
分析—描述统计—频率
选择日收益率,图标类型为直方图
查看器中即可获得直方图。
与SPSS生成的随机正态分布直方图对比。
P-P图
P-P图是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地检测样本数据是否符合某一概率分布。如果被检验的数据符合所指定的分布,则代表样本数据的点应当基本在代表理论分布的对角线上。
分析—描述统计—P-P图
选择日收益率。
查看器中可获得日收益率的P-P图。
与随机正态分布的P-P图对比。
Q-Q图
Q-Q图的结果与P-P图非常相似,只是P-P图是用分布的累计比,而Q-Q图用的是分布的分位数来做检验。和P-P图一样,如果数据为正态分布,则在Q-Q正态分布图中,数据点应基本在图中对角线上。
分析—描述统计—Q-Q图
选择日收益率。
查看器中可获得日收益率的Q-Q图。
与随机正态分布的Q-Q图对比。
计算法
偏度和峰度
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。
公式中,Sk——偏度;μ3——3阶中心矩;σ——标准差。
偏度大于零,等于零,小于零的情况。
峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于3,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。
不同峰度的对比图
在更通常的情况下,峰度被定义为四阶累积量除以二阶累积量的平方,它等于四阶中心矩除以概率分布方差的平方再减去3,这也被称为超值峰度(excess kurtosis)。“减3”是为了让正态分布的峰度为0。
公式中,γ2——超值峰度;μ4——4阶中心矩;σ——标准差。
分析—描述统计—描述
选择日收益率,并在选项中选择峰度和偏度。
日收益率的偏度为-3.142,峰度为92.058。
与随机正态分布对比,其偏度为0.013,峰度为-0.048。
Shapiro - Wilk检验和Kolmogorov - Smirnov检验
Shapiro—Wilk检验法是S.S.Shapiro与M.B.Wilk提出用顺序统计量W来检验分布的正态性,对研究的对象总体,先提出假设认为总体服从正态分布,再将样本量为n的样本按大小顺序排列编秩,然后由确定的显著性水平α,以及根据样本量为n时所对应的系数αi,根据特定公式计算出检验统计量W。最后查特定的正态性W检验临界值表,比较它们的大小,满足条件则接受假设,认为总体服从正态分布,否则拒绝假设,认为总体不服从正态分布。
Kolmogorov-Smirnov检验(K-S检验)基于累积分布函数,用以检验一个经验分布是否符合某种理论分布或比较两个经验分布是否有显著性差异。
若检验的显著性大于0.05,则说明有95%的把握说明该分布符合正态分布。通常,Kolmogorov-Smirnov检验适用于大样本(五千以上),Shapiro—Wilk检验适用于小样本。
分析—描述统计—探索
选择日收益率,并在绘图中选择带检验的正态图。
股票日收益率的Shapiro - Wilk和Kolmogorov - Smirnov的显著性均为零,不符合正态分布。
与随机正态分布进行对比,其Shapiro - Wilk的显著性为0.200,Kolmogorov - Smirnov的显著性为0.630。
结论
股票的收益率呈现明显的“尖峰厚尾”的特征,不符合标准正态分布。