如何设计统计量及相关假设检验

AI专题精讲

已于 2024-07-16 15:24:39 修改

阅读量1.8k

点赞数 20

分类专栏：机器学习文章标签：算法人工智能机器学习

于 2024-07-16 10:04:15 首次发布

本文链接：https://blog.csdn.net/qq_39698985/article/details/140457600

版权

机器学习专栏收录该内容

8 篇文章

订阅专栏

一、如何设置H0和H1假设

谁做H0，谁做H1，在统计学的假设检验里是有约定俗成的规定的。即：status quo（默认/现状）是H0，而新观点或试图challenge现状的是H1。H1也叫research hypothesis，所以我们做research、发文章就是要reject H0，而希望H1接受。
在这里插入图片描述

步骤和原则

1. 明确研究问题：
首先，需要明确你想要回答的研究问题或验证的假设。

2. 设定原假设（H0）：

H0 一般是希望被检验和拒绝的假设，因为它通常代表现状或默认状态。

3. 设定备择假设（H1）：

H1 是我们希望找到证据支持的假设。

二、如何理解显著性水平和p值之间的关系

p 值的定义

p 值（p-value）是一个概率值，用于衡量在原假设（H0）为真时，观测数据（或比观测数据更极端的数据）出现的概率。它反映了数据与原假设的一致性。

理解 p 值

假设我们进行一个假设检验，下面是详细步骤和解释：

1. 设定假设：

原假设（H0）：没有效果或没有差异。例如，假设一个新药对血压没有影响。
备择假设（H1）：存在效果或存在差异。例如，假设新药对血压有影响。

2. 选择显著性水平（ $\alpha$ ）：

通常设定为 0.05，这意味着我们允许有 5% 的概率犯第一类错误，即错误地拒绝原假设。

3. 收集数据：

例如，我们收集了一组使用新药和一组使用安慰剂的患者的血压数据。

4. 计算检验统计量和 p 值：

使用适当的统计方法（例如 t 检验），计算出一个检验统计量（例如 t 值），并基于此计算出 p 值。

p 值的含义

p 值是 0.03：这表示在原假设为真（即新药对血压没有影响）的情况下，获得与实际观测数据一样极端（或更极端）的结果的概率是 0.03（即 3%）。
- 换句话说，如果新药确实对血压没有影响，那么我们观测到这种数据的概率是 3%。这么小的概率事件发生了，那我们是不是应该质疑原假设，认为原假设不正确。

决策依据

p 值 ≤ α（例如 0.03 ≤ 0.05）：我们拒绝原假设 H0，认为数据提供了足够的证据支持备择假设 H1。也就是说，我们认为新药对血压有显著影响。
p 值 > α（例如 0.07 > 0.05）：我们不能拒绝原假设 H0，认为数据没有提供足够的证据支持备择假设 H1。也就是说，我们认为新药对血压没有显著影响。

举例说明

假设我们研究新药对降低血压的影响，进行了独立样本 t 检验，得到以下结果：

原假设 H0：新药对血压没有影响（新药组和对照组的平均血压相同）。
备择假设 H1：新药对血压有影响（新药组和对照组的平均血压不同）。
显著性水平 α：0.05。
计算得到的 p 值：0.03。

解释：

p 值 0.03 表示在新药对血压没有影响的情况下，获得与实际观测数据一样极端或更极端结果的概率是 3%。
由于 p 值（0.03）小于显著性水平 αα（0.05），我们拒绝原假设 H0，认为新药对血压有显著影响。

直观理解

可以把 p 值看作是对原假设 H0 的质疑程度：

小 p 值：数据与原假设 H0 的一致性很低，因此我们更倾向于认为原假设不成立（拒绝原假设）。
大 p 值：数据与原假设 H0 的一致性较高，因此我们没有足够的理由拒绝原假设。

总结

p 值衡量了在原假设为真时，观测到当前数据的概率。通过比较 p 值和预设的显著性水平 αα，我们可以判断是否拒绝原假设，从而得出是否存在显著差异的结论。

三、如何选择合适统计量

选择合适的统计量（statistic）进行假设检验是统计分析中的关键步骤，具体的选择取决于数据的性质、样本量、研究问题以及假设检验的类型。下面是选择合适统计量的一些指导原则和常见的统计量。
指导原则

1. 数据类型：

定量数据（连续数据）：如测量值、体重、温度等。
定性数据（分类数据）：如类别、性别、品牌等。

2. 分布类型：

正态分布：数据服从正态分布。
非正态分布：数据不服从正态分布。

3. 样本量：

大样本： 通常指样本量大于 30。
小样本： 通常指样本量小于 30。

4. 假设检验类型：

均值检验：比较两个或多个组的均值。
比例检验：比较两个或多个组的比例。
相关性检验：检验两个变量之间的关系。
方差分析：比较多个组的方差。

常见统计量

1. 均值检验：

单样本 t 检验（One-Sample t-Test）：用于检验单个样本均值是否与已知值有显著差异。适用于小样本且数据服从正态分布。
独立样本 t 检验（Independent Samples t-Test）：用于检验两个独立样本均值是否有显著差异。适用于小样本且数据服从正态分布。
配对样本 t 检验（Paired Samples t-Test）：用于检验两个相关样本均值是否有显著差异。适用于小样本且数据服从正态分布。
Z 检验（Z-Test）：用于检验两个独立样本均值是否有显著差异，适用于大样本。

2. 比例检验：

卡方检验（Chi-Square Test）：用于检验分类数据的比例是否有显著差异。适用于大样本。
Z 检验（Z-Test）：用于检验两个比例是否有显著差异，适用于大样本。

3. 相关性检验：

皮尔逊相关系数（Pearson Correlation Coefficient）：用于检验两个连续变量之间的线性关系，适用于数据服从正态分布。
斯皮尔曼等级相关系数（Spearman Rank Correlation Coefficient）：用于检验两个连续变量或顺序变量之间的关系，不要求数据服从正态分布。

4. 方差分析（ANOVA）：

单因素方差分析（One-Way ANOVA）：用于比较多个组的均值是否有显著差异。
双因素方差分析（Two-Way ANOVA）：用于比较两个因素对多个组的均值的影响。

5. 非参数检验：

曼-惠特尼 U 检验（Mann-Whitney U Test）：用于检验两个独立样本的中位数是否有显著差异，不要求数据服从正态分布。
威尔科克森符号秩检验（Wilcoxon Signed-Rank Test）：用于检验两个相关样本的中位数是否有显著差异，不要求数据服从正态分布。
克鲁斯卡尔-沃利斯检验（Kruskal-Wallis Test）：用于比较三个或更多独立样本的中位数是否有显著差异，不要求数据服从正态分布。

选择步骤

1. 确定研究问题： 明确需要检验的假设类型（如均值、比例、相关性等）。
2. 数据类型和分布： 根据数据类型和分布选择合适的统计量。
3. 样本量： 根据样本量选择合适的检验方法（如 t 检验或 Z 检验）。
4. 检验假设： 根据假设检验的类型（如单尾或双尾检验）选择适当的统计量。

实例

假设我们要比较两组学生的考试成绩是否有显著差异：

数据类型： 连续数据（考试成绩）。
分布类型： 假设数据服从正态分布。
样本量： 两组学生样本量都小于 30。

根据这些信息，我们可以选择独立样本 t 检验来比较两组学生的考试成绩是否有显著差异。

通过以上步骤和指导原则，可以有效选择合适的统计量来进行假设检验，从而得出可靠的结论。

四、统计量和p值有什么关系

统计量（test statistic）和 p 值之间的关系是非常密切的。统计量是从样本数据计算得出的一个值，用于评估数据与原假设（H0）的偏离程度。p 值则是基于统计量计算出来的概率值，用于衡量在原假设为真的情况下，观测到当前统计量或更极端的统计量的概率。

关系总结

统计量的计算：
- 统计量是从样本数据计算得出的一个值，具体计算方法取决于所使用的假设检验类型。
- 例如，对于 t 检验，统计量是 t 值；对于卡方检验，统计量是 (\chi^2) 值；对于 z 检验，统计量是 z 值。
统计量与分布：
- 每种假设检验都有对应的统计分布，如 t 分布、正态分布、卡方分布等。
- 统计量的位置在对应的统计分布上决定了 p 值。
p 值的计算：
- p 值是根据统计量在对应统计分布中的位置计算得出的概率值。
- 它表示在原假设为真的情况下，获得与观测数据一样极端或更极端的统计量的概率。

例子解释

1. 单样本 t 检验

假设我们有一个样本数据集，样本均值为 $\bar{x} = 105$ ，样本标准差为 $s = 15$ ，样本大小为 $n = 30$ ，已知均值为 $\mu_0 = 100$ 。

计算 t 统计量：
$\frac{\bar{x} - \mu_0}{s / \sqrt{n}} = \frac{105 - 100}{15 / \sqrt{30}} = \frac{5}{2.738} \approx 1.83$
确定 t 分布：
- 自由度 $(df = n - 1 = 29)$ 。
查找 t 分布表或使用统计软件：
- 对应 t 值 1.83，在自由度为 29 的 t 分布中查找 p 值。
- 假设查找结果为 p 值大约是 0.038。
p 值解释：
- p 值 0.038 表示在原假设为真的情况下，获得 t 统计量等于或大于 1.83 的概率是 0.038。

2. 双尾检验

假设进行一个双尾 t 检验：

原假设（H0）：样本均值等于总体均值（ $\mu = 0$ )。
备择假设（H1）：样本均值不等于总体均值。

假设计算出的 t 统计量为 2.0。

计算统计量：
$t = 2.0$
查找 t 分布表：
- 对应 t 值 2.0 和自由度 df 查找 p 值。
计算 p 值：
- 双尾检验中，p 值是两个尾部的和：
  $\times P(T > 2.0)$

假设查找到的 p 值为 0.05。

关系总结

统计量：从数据中计算得出，用于评估数据与原假设的偏离程度。
p 值：基于统计量计算出的概率值，表示在原假设为真时，观测到当前统计量或更极端统计量的概率。

使用统计软件计算

在实际操作中，通常使用统计软件来计算统计量和 p 值。例如，使用 Python 的 scipy.stats 模块：

from scipy import stats

# 样本数据
sample_data = [105, 100, 95, 110, 120, 90, 85, 105, 100, 110]
# 已知均值
mu_0 = 100

# 计算 t 统计量和 p 值
t_stat, p_value = stats.ttest_1samp(sample_data, mu_0)

print(f"t 统计量: {t_stat}")
print(f"p 值: {p_value}")