AB实验求置信区间和p值

不爱吃鱼的馋猫

于 2024-05-15 14:58:59 发布

阅读量532

点赞数 1

文章标签： python 人工智能机器学习

本文链接：https://blog.csdn.net/weixin_42716237/article/details/138908912

版权

做AB实验，实验组的数值分别为：0.70, 0.697, 0.693, 0.694, 0.726，对照组的0.711, 0.701, 0.695, 0.6956, 0.7287。如何求置信区间和p值?

为了计算AB两组数据的置信区间和p值，我们首先需要确定要使用的统计检验。由于我们有两组独立样本（实验组和对照组），并且想要比较它们的均值是否有显著差异，我们通常使用两独立样本t检验（也称为双样本t检验）。

在Python中，我们可以使用scipy.stats库中的ttest_ind函数来计算t统计量和p值。但是，ttest_ind函数不直接给出置信区间，但我们可以使用t统计量和自由度来计算它。

以下是Python代码示例：

import numpy as np  
from scipy import stats  
  
# 实验组和对照组数据  
group_a = np.array([0.70, 0.697, 0.693, 0.694, 0.726])  
group_b = np.array([0.711, 0.701, 0.695, 0.6956, 0.7287])  
  
# 进行两独立样本t检验  
t_statistic, p_value = stats.ttest_ind(group_a, group_b)  
  
# 输出t统计量和p值  
print(f"t-statistic: {t_statistic}")  
print(f"p-value: {p_value}")  
  
# 计算置信区间（假设我们想要95%的置信区间）  
# 自由度是两组合并后的样本数减去2  
df = len(group_a) + len(group_b) - 2  
# 计算t分布的临界值（双尾检验，所以除以2）  
alpha = 0.05 / 2  
t_critical = stats.t.ppf(1 - alpha, df)  
# 计算合并方差和合并均值  
pooled_var = ((len(group_a) - 1) * np.var(group_a) + (len(group_b) - 1) * np.var(group_b)) / df  
pooled_std = np.sqrt(pooled_var)  
# 计算两组均值的差值  
mean_diff = np.mean(group_a) - np.mean(group_b)  
# 计算置信区间的上下限  
ci_lower = mean_diff - t_critical * pooled_std * np.sqrt(1/len(group_a) + 1/len(group_b))  
ci_upper = mean_diff + t_critical * pooled_std * np.sqrt(1/len(group_a) + 1/len(group_b))  
  
# 输出置信区间  
print(f"95% confidence interval: ({ci_lower:.4f}, {ci_upper:.4f})")

请注意，上述代码假设两组数据的方差是相等的（即方差齐性）。如果方差不等（异方差），则需要进行Welch's t检验或类似的调整。在scipy.stats中，你可以使用stats.ttest_ind_from_stats函数（如果你知道两组的均值、方差和样本大小）或stats.ttest_ind函数并设置equal_var=False参数来进行Welch's t检验。

此外，置信区间的计算是基于t分布的，它依赖于样本大小、自由度和选择的置信水平。在上述代码中，我们使用了95%的置信水平。