最近在上一门叫做生物统计学与试验设计的课(估计大二+的人会比较熟悉),里面讲到了3种重要的统计分布。但让我感到非常奇怪的是,书上和老师的给我们讲的是,介绍了这个分布的概念,下一步直接翻附表查概率,其余基本啥也没讲。这让我感到好奇心大受挫损,遂在课余时间研究推导了一下这些分布(也有的推导过程是我上网查询的),写了这篇文章。
卡方分布定义:
X1, X2, …, Xi, …, Xn~N(0, 1)且X1, X2, …, Xi, …, Xn相互独立(或(X1, X2, …, Xi, …, Xn)是某个标准正态总体某次独立随机抽样的样本),则称Y=ΣXi2服从df=n的卡方分布,写作Y~χ²(n)。这个分布由詹姆斯·麦克斯韦(James Clerk Maxwell, 1831-1879)在研究空气分子的运动速度的分布时发现的,他发现分子运动速度的平方v²~χ²(3)。后来又有多人提出这种分布,例如弗里德里希·罗伯特·海尔默特(Friedrich Robert Helmert, 1843-1917)于1875年,故卡方分布有时(在德国常见,因海尔默特是德国人)也称海尔默特分布;另外,这一结果被英国生物统计学家、优生学家、数理统计学创始人和社会达尔文主义理论家卡尔·皮尔逊(Karl Pearson, 1857-1936)推广并于1900年发表。

下面推导χ²分布的概率密度函数。
对于df=1,有

则

对于df=2,可将所得的二重积分做极坐标变换处理,于是

其中D是一个以原点为圆心的圆区。
则

对于df=3,有

故

需要说明一下,这里对加以处理时使用的球坐标系方法也一般性地称作“极坐标系”(也有之后表述方便之需要)。
则对于一般情况df=n,有

根据观察推敲和前面的推导过程实际上可以发现,式中除了最后一项是x的函数以外,其他全是常数。其原因在于,在极坐标积分确定的体积元中有关角度的项只与维数(自由度)n有关,而与r本身无关。所以上面的积分可以重新表示为

其中An是常数。
(严谨起见,又把被1/2π消掉的第一项写了回来。)
如果强行根据维数推广极坐标系,数学上将是非常困难的。(当然,其实主要还是因为我们没法想象高维空间,所以也很难直观地用几何的方法构造体积元。再说了,即便我们推了很多个不同维数的极坐标系体积元,然后归纳得出了一个一般情况,我们何成能证明它呢?)但我们有其他的方法可以避开这个复杂的步骤。根据归一化条件,应该有

换元t=ρ²/2,dt=ρdρ,上面的方程变为

注意到这个积分是伽马函数

故