将非高斯分布转化为高斯分布
注:可用SPSS操作
1.平方根变化
(1)使服从Poission分布的计数资料或轻度偏态资料正态化,可用平方根变换使其正态化。
(2)当各样本的方差与均数呈正相关时,可使资料达到方差齐性。
2.取<1的某数次幂
3.取log
(1)使服从对数正态分布的数据正态化。
(2)使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数CV接近于一个常数时。
4.倒数变换
数据两端波动较大
5.平方根反正旋变换
常用于服从二项分布的率或百分比的资料。一般认为等总体率较小如<30%时或较大(如>70%时),偏离正态较为明显,通过样本率的平方根反正玄变换,可使数据接近正态分布,达到方差齐性的要求。
6.BOX-COX变换
用于连续的响应变量不满足正态分布的情况,使线性回归模型满足线性性、独立性、齐方差性以及正态性,同时又不丢失信息。
BOX-COX变换目标有两个:
- 变换后,可以一定程度上减小不可观测的误差和预测变量相关性。
(主要操作是对因变量转换,使得变换后的因变量于回归自变量具有线性相依关系,误差也服从正态分布,误差各分量是等方差且相互独立。)
- 用这个变换来使得因变量获得一些性质,比如在时间序列分析中的平稳性,或者使得因变量分布为正态分布。
7.逆变换采样,逆概率积分变换
逆变换采样,又称为逆采样、逆概率积分变换,是伪随机数采样的一种基本方法。也就是说,在已知任意概率分布的累计分布函数下,可用于从该分布中生成随机样本。
逆变换采样采用一个在0到1之间的 u u u的均匀样本,然后从分布 P ( X ) P(X) P(X)的领域中返回最大的数字 x x x,使得 P ( − ∞ < X < x ) ≤ u 0 P(- \infty<X<x)\le u_{0} P(−∞<X<x)≤u0
8.Fisher变换
例如:
x
1
←
l
o
g
(
x
1
)
x
2
←
l
o
g
(
x
2
+
c
)
x
3
←
x
3
x
4
←
1
x
4
x
5
←
x
5
1
3
x
6
←
arcsin
x
6
x
7
←
1
2
ln
[
1
+
x
7
1
−
x
7
]
x
8
←
{
(
1
+
λ
x
8
λ
)
1
λ
,
λ
≠
0
ln
(
x
8
λ
)
,
λ
=
0
(
B
O
X
−
C
O
X
逆
变
换
公
式
)
\begin{matrix} x_{1}\leftarrow log(x_{1})\\ x_{2}\leftarrow log(x_{2}+c)\\ x_{3}\leftarrow \sqrt{x_{3}}\\ x_{4}\leftarrow \frac{1}{\sqrt{x_{4}}}\\ x_{5}\leftarrow x_{5}^{\frac{1}{3}}\\ x_{6}\leftarrow {\arcsin{\sqrt x_{6}}}\\ x_{7}\leftarrow \frac{1}{2}\ln[\frac{1+x_{7}}{1-x_{7}}]\\ x_{8}\leftarrow \{\begin{aligned} (1+\lambda x_{8}^{\lambda})^{\frac{1}{\lambda}},\lambda\ne0\\\ln(x_{8}^{\lambda}),\lambda=0 \end{aligned}{(BOX-COX逆变换公式)} \end{matrix}
x1←log(x1)x2←log(x2+c)x3←x3x4←x41x5←x531x6←arcsinx6x7←21ln[1−x71+x7]x8←{(1+λx8λ)λ1,λ=0ln(x8λ),λ=0(BOX−COX逆变换公式)