统计学类别变量的推断

Air浩瀚

已于 2023-03-07 20:18:58 修改

阅读量722

点赞数

分类专栏： # 统计学文章标签：算法大数据数据分析

于 2023-03-02 17:08:42 首次发布

本文链接：https://blog.csdn.net/Ryansior/article/details/129304823

版权

统计学专栏收录该内容

9 篇文章 2 订阅

订阅专栏

文章目录

类别变量的推断

类别变量的推断

一个类别变量的拟合优度检验

只研究一个类别变量的时候，可以用 $\chi^2$ 检验来判断各类别频数与某一期望频数是否一致。

观察频数：观察到的各类别实际的频数
期望频数：期望中各类别的频数
注意：这里频数不是比例
拟合优度检验：也称一致性检验，用于检验观察频数和期望频数是否一致，使用的统计量为 Pearson $\chi^2$ ：

$\chi^2=\sum\frac{(f_{o}-f_{e})^{2}}{f_{e}}$

其中 $\chi^2$ 服从自由度为 $k - 1$ 的 $\chi^2$ 分布， $k$ 为类别数目。
提出假设：

$H_{0}$ ：观察频数与期望频数无显著差异（无明显偏好）
$H_{1}$ ：观察频数与期望频数有显著差异（有明显偏好）
两类问题 ：
期望频数相等：每个类别的期望频数是相等的，比如我们要检验消费者对某些类别的产品是否有明显偏好
期望频数不等：每个类别的期望频数不等，比如我们要检验某个地区对某项政策的评价是否和全国人民对该政策的平均评价一致
计算完 $\chi^2$ 后，也是用 $P$ 值检验（取右尾概率）

两个类别变量的独立性检验

列联表与 $\chi^2$ 独立性检验

列联表：两个或多个类别变量，每个类别变量包含许多类别，则将不同类别变量交叉分类的频数写成分布表，称为列联表
提出假设：（以下都是两个类别变量的情况）

$H_{0}$ ：两个变量独立（无关）
$H_{1}$ ：两个变量不独立（相关）
两个变量 $\chi^2$ 独立性检验的统计量为：（自由度为 $(r - 1) (c - 1)$ ）

$\chi^2=\sum\sum\frac{(f_{o}-f_{e})^{2}}{f_{e}}$

观察频数就是我们统计出来的值；单元格 $ij$ 期望频数的计算方法为：
$f_{e}=\frac{RT_{i}}{n}\times\frac{CT_{j}}{n}\times n$
其中：

$RT_{i}$ 为第 $i$ 行的频数之和， $\frac{RT_{i}}{n}$ 即为第 $i$ 行的类别所观察到的比例
$CT_{j}$ 为第 $j$ 行的频数之和， $\frac{CT_{j}}{n}$ 即为第 $j$ 列的类别所观察到的比例

应用 $\chi^2$ 检验应该注意的问题

应用 $\chi^2$ 检验时，要求样本量足够大，特别是每个单元格的期望频数不能太小。否则期望频数在分母，太小的话会导致 $\chi^2$ 变大， $P$ 值变小，从而拒绝原假设。因此，应用 $\chi^2$ 检验时对单元格的期望频数有以下要求：

如果仅有两个单元格，单元格的最小期望频数不应小于 5；
单元格两个以上时，期望频数小于 5 的单元格不能超过 20%；如果出现这种情况，可以通过合并类别的方式处理。

两个类别变量的相关度检验

如果前边独立性检验拒绝了 $H_{0}$ ，也就是说这两个变量不独立，此时可以进一步测度它们的关联程度，常使用 $\varphi$ 系数、Cramer’s $V$ 系数和列联系数作为检验统计量。

$\varphi$ 系数

$\varphi$ 系数主要用于 $2\times2$ 列联表的相关性测量：
$\varphi=\sqrt{ \frac{\chi^2}{n} }$
对于 $2\times2$ 列联表， $\varphi$ 取值为 $0\sim 1$ ，越接近 1 表示两个变量的相关性越强；
当列联表变大时， $\varphi$ 的值会随着变大，此时不好解释 $\varphi$ 的含义。

Cramer’s $V$ 系数

Cramer’s $V$ 系数由 Cramer 提出，计算公式为：
$V=\sqrt{ \frac{\chi^{2}}{n\times \min{((r-1),\,(c-1))}} }$
其中 $r$ 和 $c$ 分别为行数和列数；当行数或列数为 $2$ 时，Cramer’s $V$ 系数就等于 $\varphi$ 系数。
Cramer’s $V$ 系数的取值总是在 $0\sim 1$ ：