卡方检验

最新推荐文章于 2024-05-07 19:56:24 发布

Heiiyoo

最新推荐文章于 2024-05-07 19:56:24 发布

阅读量695

点赞数

分类专栏：统计文章标签：统计卡方

本文链接：https://blog.csdn.net/Heiiyoo/article/details/103019114

版权

统计专栏收录该内容

1 篇文章 0 订阅

订阅专栏

简要介绍 $\chi^2$ 检验的两种用法。

一.列联表中的相关测量

同一批测量数据，可以按照不同的分类标准进行分类，从而从这些标准下的数据分布中挖掘出标准（变量）之间可能存在的相关关系。这称为交互分类。

交互分类（Cross Classification）：抽自某一总体的样本，同时按照两个或两个以上的标准进行分类。

交互分类的资料可以排成一个行、列交织的表，称为列联表。经典列联表如下表。

经济状况	家庭	规模	合计
-	大小	-
高收入	2	44	46
中等收入	32	10	42
低收入	10	2	12
合计	44 56	100

可抽象为以下形式。

	$x_1$	$x_2$	…	$x_j$	…	$x_c$	合计
$y_1$	$f_{11}$	$f_{12}$	…	$f_{1j}$	…	$f_{1c}$	$f_{1 \cdot}$
$y_2$	$f_{21}$	$f_{22}$	…	$f_{2j}$	…	$f_{2c}$	$f_{2 \cdot}$
…	…	…	…	…	…	…	…
$y_i$	$f_{i1}$	$f_{i2}$	…	$f_{ij}$	…	$f_{ic}$	$f_{i \cdot}$
…	…	…	…	…	…	…	…
$y_r$	$f_{r1}$	$f_{r2}$	…	$f_{rj}$	…	$f_{rc}$	$f_{r \cdot}$
合计	$f_{\cdot1}$	$f_{\cdot2}$	…	$f_{\cdot j}$	…	$f_{\cdot c}$	$n$

其中标准 $X$ 取 $x_j$ 水平， $j=1,\dots,c$ 。标准 $Y$ 取 $y_i$ 水平， $i=1,\dots,r$ 。 $f_{ij}$ 为频数，数据构成 $r\times c$ 列联表。

1. 对称与非对称关系

一般来说，分类的标准 $X$ 和 $Y$ 之间没有因果关系。或者说，①不考察 $X$ 影响 $Y$ , 还是 $Y$ 影响 $X$ ；② $X 、 Y$ 之间可以相互影响。那么我们则把这种对等的关系称为对称关系。否则，若只存在一方面对另一方面的影响，则称为非对称关系。例如家庭规模和经济状况就是一组对称关系，而孩子的成绩和父母的教育程度则为非对称关系。对这种关系的认识关系到所做的统计分析是否存在意义。

2.相关性的 $\chi ^2$ 检验

在数据中挖掘有用而有趣的信息，一般寻找变量之间的相关关系。 $\chi ^2$ 检验通常适用于检验两个定类变量之间是否相关，但同样也可以用于定序变量。对交互分类表格给出的定类、定序变量之间是否独立的检验， $\chi ^2$ 检验是最有效果的。
首先建立假设组： $H_0:X与Y独立$ $H_1：X与Y不独立$
当列 $X$ 与行 $Y$ 不相关（独立）时，根据 $P (X = x, Y = y) = P (X = x) P (Y = y)$ 可有 $(i, j)$ 处的期望频率
$e_{ij}=n\frac{f_{i\cdot}}{n}\frac{f_{\cdot j}}{n}.$
若该处的实际频率等于独立条件下的期望频率，即 $f_{ij}=e_{ij}(i=1,\dots,r;j=1,\dots,c)$ ，则 $H_0$ 假设成立。于是如果各处的实际频率与期望频率的离差越小，则越接近于独立。为防止正负抵消，采用差值的平方和，从而有了 $\chi^2$ 检验中的 $Q$ 统计量: $Q=\sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(f_{ij}-e_{ij})^2}{e_{ij}}$ 其近似服从自由度 $d f = (r - 1) (c - 1)$ 的 $\chi^2$ 分布。

我们可以将计算的 $Q$ 值，和给定显著性水平下的临界值 $\chi_{\alpha}^2$ 比较。若 $Q\geqslant \chi^2_{\alpha}$ ,拒绝原假设， $X$ 与 $Y$ 相关；反之，接受原假设。

二.单样本非参数的拟合优度检验

类似于列联表中的相关性检验， $\chi^2$ 可用于单样本非参数检验。

$\chi^2$ 检验（Chi-Square Goodness-of-Fit Test）属于拟合优度检验，可用于回答以下问题：观察频数和某种原则下的期望频数是否有显著差异；观察的比例与所期望的比例是否有显著性差异；样本取自某种类型的总体的假定是否合理等。

当一个事件可能有两个以上，如 $k$ 个结果出现时，采用 $\chi^2$ 判定其观察频数是否显著地背离期望是最合适的。我们设样本分为 $k$ 类，每类实际观察频数为 $f_1,f_2,\dots,f_k$ ，对应期望为 $e_1,e_2,\dots,e_k$ 。则有 $Q$ 统计量公式： $Q=\sum_{i=1}^{k}\frac{(f_i-e_i)^2}{e_i}.$ 若 $Q = 0$ ,则表明数据完全拟合期望。值得注意的是，当某个分类的期望频数小于5时，应该与邻近组合并。要保证每一种分类的期望频数都大于5，否则检验结果的有效性会大打折扣。