最近学习非参数统计,碰到一个样例,准确说明了若数据不服从正态分布,或有明显的偏态表现,应用t统计量和t检验推断未必能发挥较好的效果~
这是一个课本上的例题,数据是16座预售楼盘均价,判断是否与媒体公布的37说法相符。
data = matrix(c(36,32,31,25,28,36,40,32,41,26,35,35,32,87,33,35),16,1) #16座楼盘均价
row_name = c("数据")
Data = data.frame(data)
attach(Data)
mean(data)
var(data)
length(data)
t.test(data-37) #近似总体为正态分布使用t统计量
binom.test(sum(data>37),length(data),0.5) #使用符号检验
使用 t 统计量推断结果:
One Sample t-test
data: data - 37
t = -0.14123, df = 15, p-value = 0.8896
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-8.045853 7.045853
sample estimates:
mean of x
-0.5
在结果中可以看出,不能拒绝零假设,但不表示接受备择假设,它仅仅是说明要拒绝零假设还需要更多的证据。
使用符号检验结果:
Exact binomial test
data: sum(data > 37) and length(data)
number of successes = 3, number of trials = 16, p-value = 0.02127
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.04047373 0.45645655
sample estimates:
probability of success
0.1875
结果表明正好与t检验结果相反,表明拒绝零假设。在t分布中,假定样本来自于服从正态分布的样本。但实际数据有可能并不服从正态分布,即有偏态表现。由于t检验的假设正态分布有问题,所以符号检验更可信。