阅读全文: Stata:正态转换的五种方法 (lianxh.cn)
作者:王硕 (山东大学)
邮箱:shweung@163.com
编者按:本文整理自 Types Of Transformations For Better Normal Distribution,特此致谢!
1. 数据需要正态转换的原因
以概率分布为核心的研究大都聚焦于正态分布。例如一般线性模型假定 Y=Xβ+ϵY=Xβ+ϵ,其中误差项 ϵϵ 服从或近似服从正态分布,但由于 ϵϵ 可能和 YY 有关,而 YY 不服从正态分布,这会给线性回归的最小二乘估计系数结果带来误差。此时,就需要对数据正态化处理以有效降低模型的均方根误差 (RMSE) 或均方根对数误差 (RMSLE)。
在本推文中,我们将给出 2 个判断指标以及 5 种类型的数据转换方案,以更好地辨别和适应正态分布。
2. 判断指标:偏度(Skewness)和峰度(Kurtosis)
偏度衡量随机变量概率分布的不对称性,是相对于平均值不对称程度的度量。通过对偏度系数的测量,我们能够判定数据分布的不对称程度以及方向,其计算公式为 S=1n∑i=1n(Xi−Xˉ)31n∑i=1n(Xi−Xˉ)23S=n1∑i=1n(Xi−Xˉ)23n1∑i=1n(Xi−Xˉ)3。标准正态分布的偏度为 0,而非标准的数据分布分别被称为 “左偏” (偏度小于零,有极小值) 和 “右偏” (偏度大于零,有极大值)。
峰度是研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据相对于正态分布而言是更陡峭 / 平缓,其计算公式为 K=1n∑i=1n(Xi−Xˉ)41n∑i=1n(Xi−Xˉ)24−3K=n1∑i=1n(Xi−Xˉ)24n1∑i=1n(Xi−Xˉ)4−3 。标准正态分布的峰度为 3,而非标准的数据分布分别被称为 “尖峰” (峰度大于 3,数据点集中于均值) 和 “厚尾” (峰度小于 3,数据点较分散) 。
2.1 方法一:计算统计量
在查看数据偏度和峰度统计量时,可以借助 Stata 中的 tabstat
命令,并加入 count mean p50 skewness kurtosis
等选项呈现出观测值、均值、中位数、峰度和偏度等指标。以 Stata 软件自带的数据文件 nlsw88.dta 中的 wage 工资变量为例进行演示,该数据包含了 1988 年 2246 个美国妇女的资料,其命令的语法结构如下:
. sysuse nlsw88, clear
. tabstat wage, stat (count mean p50 skewness kurtosis)
Variable | N Mean p50 Skewness Kurtosis
----------+---------------------------------------------
wage | 2246 7.766949 6.27227 3.096199 15.85446
--------------------------------------------------------
从呈现结果可以看出,偏度为 3.096,均值 7.767 高于中位数 6.272,因此很明显工资变量是一个右偏的变量。峰度为 15.854,远大于标准正态分布的峰值 3,表明工作变量较为集中地分布在均值附近。