分布(卡方分布)
在概率论中,我们用“
”这个式子来定义卡方分布,可见卡方分布是特殊的伽玛分布。在数理统计中,我们给出卡方分布的构造定义:
若
独立同分布于
,则
,记
服从自由度为
的卡方分布。卡方分布是只取非负值的偏态分布,且:
这里给出自由度不同的卡方分布的概率密度函数(PDF, probability density function)的图像(由R绘制,代码在文末,下同):
从图中可以看出
分布是右偏分布,自由度越大,图形越矮胖,反之越高瘦。
定理1
设
是来自正态总体
的样本,其样本均值和样本方差分别为:
则:
-
与相互独立;
-
,也即;
-
证明过程过于复杂,略去。其中第二条性质在后面的假设检验中用处非常大。
F分布
设随机变量
,且
独立,称
的分布是自由度为
的
分布,记为
。其中
为分子自由度,
为分母自由度。同样,
是只取非负值的偏态分布。这里给出自由度不同的
分布PDF的图像:
从图中可以看出
分布也是右偏分布。当第一个参数固定时,第二个参数越大,图形越高瘦,反之越矮胖。当
分布的第二个参数固定时,第一个参数越大,图形越高瘦,反之越矮胖。两图比较易知,卡方分布图形性质更易受第一个参数的影响。
定理2
设
是来自
的样本,
是来自
的样本,且此两样本相互独立,记样本均值:
样本方差:
则:
特别地,若
,则
证明:
因两样本相互独立,由定理1第3条知:
再由
分布的定义知:
分布
设随机变量
独立,
,称:
的分布为自由度为
的
分布,记作
。不同自由度的t分布与标准正态分布的图形:
可以看出
分布是对称分布,与标准正态分布形状类似,只是峰值比标准正态分布低。自由度越大,形状越高瘦,反之越矮胖。
自由度为1的
分布就是标准柯西分布,它的均值不存在。当
时,
分布的期望为
。当
时,
分布的方差为
。当
较大(如
)时,
分布可用标准正态分布
近似。
定理3
设
是来自正态总体
的样本,其样本均值和样本方差分别为:
则:
证明:
又要证的式子:
由定理1的第2条和第3条:
故上式的分子为标准正态变量,分母的根号里是自由度为
的卡方变量除以自由度
,由
分布的定义:
。
定理4
在定理1的记号下,设
,记:
则:
证明:
由定理1第2条:
且
独立,则:
所以:
由定理1第3条知:
由卡方分布的可加性知:
由于
与
独立,由
分布的定义可知:
#卡方分布
curve(dchisq(x,4),col = "black",from = 0,to = 40,xlab = "chi-squre",ylab = "p(x)")
curve(dchisq(x,8),col = "red",add = TRUE)
curve(dchisq(x,12),col = "green",add = TRUE)
curve(dchisq(x,16),col = "blue",add = TRUE)
title(main = "Chi-Square PDF")
legend("topright",cex = .8,
legend = c("chi-square(4)","chi-square(8)","chi-square(12)","chi-square(16)"),
col = c("black","red","green","blue"),
lty=1,lwd = 2)
#F分布1
curve(df(x,4,1000),col = "blue",from = 0,to = 4,xlab = "F",ylab = "p(x)")
curve(df(x,4,100),col = "green",add = TRUE)
curve(df(x,4,10),col = "red",add = TRUE)
curve(df(x,4,5),col = "black",add = TRUE)
title(main = "F PDF(1)")
legend("topright",cex = .8,
legend = c("F(4,5)","F(4,10)","F(4,100)","F(4,1000)"),
col = c("black","red","green","blue"),
lty=1,lwd = 2)
#F分布2
curve(df(x,16,10),col = "blue",from = 0,to = 4,xlab = "F",ylab = "p(x)")
curve(df(x,12,10),col = "green",add = TRUE)
curve(df(x,8,10),col = "red",add = TRUE)
curve(df(x,4,10),col = "black",add = TRUE)
title(main = "F PDF(2)")
legend("topright",cex = .8,
legend = c("F(4,10)","F(8,10)","F(12,10)","F(12,10)"),
col = c("black","red","green","blue"),
lty=1,lwd = 2)
#t分布
curve(dnorm,col="black",from = -4,to = 4,xlab = "t",ylab = "p(x)")
curve(dt(x,2),col = "red",add = TRUE)
curve(dt(x,6),col = "green",add = TRUE)
curve(dt(x,10),col = "blue",add = TRUE)
legend("topright",cex = .8,
legend = c("N(0,1)","t(4)","t(10)","t(100)"),
col = c("black","red","green","blue"),
lty=1,lwd = 2)