有时我们需要对数据进行转换。我们可能有这样一组数据,如果不作任何处理直接可视化,有些部分很难看清。同时,如果要对数据进行统计检验的话,很多常用的检验方法都会假设数据服从某种特定的分布(比如正态分布)。然而在实际生活中,我们经常碰到不满足这些假设的数据。数据转换可以同时解决上述两种问题。
数据转换的核心就是对偏态数据进行处理以使之满足正态分布(高斯分布)这个默认假设的要求。
根据数据特点,可以选择合理的基本变换,一般规律如下:
实验练习:
环境:R 3.3.2
实验样本:随机生成数
w=c(100,99,34,29,95,85,86,95,84,87,58,89,93,90,92,84,75,76,65,76,87,89,83,82,81,94,95,96,87,89,75,71,71,72,73,75,89,86,89,92,90,99,98,96,95,90,83,84,78,79)
curve(dnorm(x,mean(w),sd(w)),xlim=c(0,100),col="blue",lwd=3)
生成的原始图像:
不断进行参数调节:调整function(x)根据变换原则,这是一个左偏态,所以X^N中N>1,然后对N进行微调
N=2
curve(dnorm(x^2,mean(w),sd(w)),xlim=c(0,100),col="blue",lwd=3)
很明显调过了,不断缩小,一直到N=1.15为合适
参考资料:http://dataunion.org/book/datadesign/ch11.html