假设检验

最新推荐文章于 2025-01-07 01:31:02 发布

ClintonZero

最新推荐文章于 2025-01-07 01:31:02 发布

阅读量1k

点赞数

分类专栏：统计学

本文链接：https://blog.csdn.net/Dulpee/article/details/86702017

版权

统计学专栏收录该内容

7 篇文章

订阅专栏

假设检验(批判性思维)

什么是假设检验?

一旦你排出了所有不可能那么剩下的就是真相 >_< —>假设检验
假设检验是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断，一般常见的有t检验与z检验。

简单说明假设检验的过程
可以用法庭的审理来说明。先想像现在法庭上有一名被告，假设该被告是清白的，而检察官必须要提出足够的证据去证明被告的确有罪。在证明被告有罪前，被告是被假设为清白的。
其中零假设为:被告者无罪
备选假设为:被告者有罪

作用是什么?

比如检验产品是否合格、药物效果是否达标

假设检验的步骤

进行假设检验分为四步
1.问题是什么?
提问:
零假设:
备选假设:
2.证据是什么?
零假设成立时，得到的样本平均值的概率是:p值
3.判断标准是什么?
显著性水平α=0.1%,1%,5%
4.做出结论?
当P<=α时，拒绝零假设也就是备选假设成立当P>α时，接受零假设

假设检验类型

单样本检验:检验单个样本平均值是否等于目标值
相关配对检验:检验相关或配对观测之差的平均值是否等于目标值
独立双样本检验(没有残留效应):检验两个独立样本的平均值之差是否等于目标值

实战项目来自知乎live分别为单样本检验、相关配对样本检验

单样本检验

如何进行单样本假设检验?
题目:“超级引擎”是一家专门生产汽车引擎的公司，根据政府发布的新排放要求，引擎排放平均值要低于20ppm，（ppm是英文百万分之一的缩写，这里我们只要理解为是按照环保要求汽车尾气中碳氢化合物要低于20ppm）。
公司制造出10台引擎供测试使用，每一台的排放水平如下：
15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9
导入数据查看平均数与标准差

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#导入数据集
dataSer = pd.Series([15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,15.9])
#样本平均数
sample_mean = dataSer.mean()
print("平均数为:",sample_mean)
#样本标准差
sample_std = dataSer.std()
print("标准差为:",sample_std)

结果
平均数为: 17.369999999999997
标准差为: 2.79922608352142

查看数据是否满足正态分布

import seaborn as sns
sns.distplot(dataSer)
#查看数据集分布
plt.title("数据集分布")
plt.show()

在这里插入图片描述
可以看到满足正态分布

P值

p值是假设成立前提下，得到样本平均值的概率是多少，一般p<0.05代表结果成立
计算P值得过程

from scipy import stats
#总体平均值
pop_mean = 20
t,p_twoTail = stats.ttest_1samp(dataSer,pop_mean)
print("t:",t,"p:",p_twoTail)
#单侧检验p值为
p_oneTail = p_twoTail/2
print(p_oneTail)通过
t: -3.001649525885985 p: 0.014916414248897527
0.0074582071244487635

表示在零假设成立的情况下，得到样本平均值成立的概率是0.0074，所以拒绝零假设，有统计显著，也就是汽车引擎排放满足标准

撰写假设检验报告:
假设检验APA格式
t(df)=x.xx,p=.xx(α-.xx),检验方向
如上图单样本(左侧)t(9)=-3.00,p=.0074(α=5%)
给出假设检验的置信区间:

t_ci = 0.0645
#使用scipy计算标准误差
se = stats.sem(dataSer)
#置信区间上限
a = sample_mean - t_ci * se
b = sample_mean + t_ci * se
print("置信区间上线为:",a,"置信区间下线为:",b)
得到在95%的置信水平下CI	=[17.11,17.23]

效应量

1.差异指标
例如在对比平均值时，衡量效应大小的常见标准之一是Cohen’s d
Cohen’s d = （样本平均值1-样本平均值2) / 标准差
Cohen’s d 除以的是标准差，也就是以标准差为单位，样本平均值和总体平均值之间相差多少。

2.相关性指标
例如R平方，表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式，这里的t值从t检验中获得的值，df是自由度。
r2=t2 / (t2+df),其中r2是指r的平方，t2是t的平方
如果r平方等于20%，表示我们可以说通过知道另一个变量能够接受相关变量20%的变化情况

对汽车排放量进行检测

#效应量:差异指标Cohen's d
d = (sample_mean-pop_mean)/sample_std
print("样本平均值与总体平均值比较:"d)

结果为:-0.9395454034536105

假设检验结果撰写
1.描述统计分析
样本平均值为17.17ppm,样本标准差为2.98ppm
2.推论统计分析
1)假设检验
独立样本t(9)=-3.00p=0.0074(α=5%),单侧检验公司引擎排放量满足标准
2)置信区间
平均值的置信区间，95%CI=(17.11,17.23)
3)效应量
d=-0.94

相关配对检验

**
1.选好零假设与备选假设
**问题:**特鲁普效应是著名的心理学现象，展示了人们对事物的认知过程已是一个自动化的历程。当有一个新的刺激出现时，如果它的特征和原先的刺激相似或符合一致，便会加速人们的认知；反之，若新的刺激特征与原先的刺激不相同，则会干扰人们的认知，使人们的所需的反映数据变长。
我们想要验证斯特鲁普效应。

零假设:不存在第一组平均值==第二组平均值
备选假设:存在第一组平均值<第二组平均值
2.检验类型
相关配对检验
3.抽样分布类型
我们应该怎么检验呢，首先根据假设我们需要看他们的差值呈现总体分布情况

	data = pd.read_csv('data.csv',encoding='GBK')
data.head()
	data.describe()
	#画板
fg = plt.figure(figsize=(20,10))
#画纸
ax= fg.add_subplot(1,1,1)
#绘制柱状图

data.plot(kind="bar",ax=ax)
plt.show()
    import seaborn as sns
    sns.distplot(data['差值'])
    plt.title('差值数据集分布')
    plt.show()

在这里插入图片描述
通过差值分布我们可以看到满足正态分布
所以使用t分布
4.明确检验方向
根据上文中有小于号所以采取左侧检验

t,p_twoTail = stats.ttest_1samp(data['Congruent'],data['Incongruent'])
print('t值=',t,'双尾检验的p值为',p_twoTail)

t值= -8.088610872807587 双尾检验的p值为 3.548719149724915e-08

查看置信区间

t_ci=2.064
#差值数据集平均值
sample_mean=data['差值'].mean()
#使用scipy计算标准误差
se=stats.sem(data['差值'])
#置信区间上限
a=sample_mean - t_ci * se
#置信区间下限
b=sample_mean + t_ci * se
print("a:",a,"b",b)

置信区间在[-10.57342555613461,-6.274324443865391]之间

效应量

'''
效应量：差异指标Cohen's d
'''
#差值数据集对应的总体平均值是0
pop_mean=0
#差值数据集的标准差
sample_std=data['差值'].std()
d=(sample_mean - pop_mean) / sample_std

print('d=',d)

d= -1.67009616514

假设检验报告

1、描述统计分析

第一组样本数据：字体内容和字体颜色一致情况下，平均反应时间是: 13.89 秒,标准差是 3.47 秒

第二组样本数据：字体内容和字体颜色不一致情况下，平均反应时间是: 22.62 秒,标准差是 5.09 秒

“不一致”情况下所用时间均大于“一致”情况，也就是当字体内容和字体验证不一致时，实验者的平均反应时间变长

2、推论统计分析

1）假设检验

相关配对检验t(24)=-8.35,p=7.32e-09 (α=5%),左侧检验

统计上存在显著差异，拒绝零假设，从而验证斯特鲁普效应存在。

2）置信区间

两个平均值差值的置信区间，95%置信水平 CI=[-8.80,-8.67]

3）效应量

d= - 1.67