![344fc6d49174ca496314860d064c2998.png](https://i-blog.csdnimg.cn/blog_migrate/9838271aa196c3274fc045d088ab17d6.png)
从三个方面进行解答。首先要知道什么是卡方检测,然后认识什么是卡方分布,最后将二者联系起来。
1.卡方检测的定义
![619fe91915ce3d9a92350ff74b79f788.png](https://i-blog.csdnimg.cn/blog_migrate/907644ca46a05c099c258c20ee8fe6ca.jpeg)
上图展示了一组性别与化妆与否的关系图。现在要使用卡方检测对性别与化妆与否关系密切度?
对于数学,咱们需要量化,也就是给这个密切度一个数。这个数可以是一个普通的标量指标数(如身高,体重)也可以是一个概率。那么卡方检测求的是前者(指标数),卡方分布求的是后者,概率数。
卡方检测将整体样本按照小区间划分,可以划分为 X1化妆男,X2化妆女,X3不化妆男,X4不化妆女。注意X1+X2+X3+X4就是样本总量。如果化妆和性别无关,那么即使在同一性别里,化妆和不化妆的概率应该和总样本里的化妆不化妆相近。于是就有了用(fi-npi)^2/npi作为评估公式。fi指的是这里是X1,X2,X3或者X4,npi指的是对应的理论值。我们知道了这个评估公式求和出来的指标值越大,表示性别和化妆之间关系密切,但是我们需要一个概率值。于是就需要一个从计算结果转概率,你应该能想到概率密度函数了。
2. 那么得到评估结果与卡方分布有什么关系呢?
我们从卡方分布的定义入手,看看1中的评估公式符不符合卡方分布定义。卡方分布要求随机变量要独立且同分布的正太分布。由于X1,X2,X3,X4都是正太样本X的部分值随机值,因此也符合正太分布。且X1,X2,X3,X4没有交集,因此相互独立。也就是f1,f2,f3,f4 (这里的Xi和fi同意思)独立同分布。由于npi是固定数,相当于正太分布乘了个系数。(fi-npi)/根号(npi)也是独立同分布,且符合正太分布。
3. 卡方检测计算结果与卡方分布概率密度函数的关系
1中解释了卡发检测计算公式的合理性,2介绍了卡方检测符合卡方分布的定义。这里介绍卡方检测计算结果与卡方分布概率密度函数的关系。卡方分布密度函数的图像网上可以找到。概率密度函数就是说某个值可能出现的概率多大。卡方检验计算的结果在卡方分布里的概率代表了。我们知道了卡方检测的值越大,越不可信,但是我们需要一个概率值。于是就需要一个从计算结果转概率的密度函数了。
最后一张简单的图片总结一下
![4bd26503cd88e26b4fb8914569943ea2.png](https://i-blog.csdnimg.cn/blog_migrate/5707a52a52a0cb7a8c0a9950d03fde25.jpeg)