利用python进行假设检验

概念:假设检验,就是要对总体参数u提出一个假设,然后利用样本信息去验证这个假设是否成立。假设检验的假设:(1)假设检验时,会设置两个假设一个是原假设,也叫零假设,用H0表示。原假设一般是统计者想要拒绝的假设。原假设设置一般为:等于=、大于等于>=、小于等于<=。另一个是备择假设,用H1表示。备择假设是统计者想要接受的假设,备择假设的设置一般为:不等于!=、大于>、小于<。(2)为什么把设计者想要拒绝的假设放在原假设呢?因为原假设如果误判的话,只会犯弃真错误,而犯弃真错误的
摘要由CSDN通过智能技术生成

概念:假设检验,就是要对总体参数u提出一个假设,然后利用样本信息去验证这个假设是否成立。
假设检验的假设:
(1)假设检验时,会设置两个假设
一个是原假设,也叫零假设,用H0表示。原假设一般是统计者想要拒绝的假设。原假设设置一般为:等于=、大于等于>=、小于等于<=。
另一个是备择假设,用H1表示。备择假设是统计者想要接受的假设,备择假设的设置一般为:不等于!=、大于>、小于<。

(2)为什么把设计者想要拒绝的假设放在原假设呢?
因为原假设如果误判的话,只会犯弃真错误,而犯弃真错误的概率已经被规定的显著性水平所控制了。

接下来了解一下什么是弃真错误、取伪错误
为什么会出现弃真错误、取伪错误呢?
由概念可知,我们是通过样本数据来估计总体参数的假设,但是样本数据是随机的,这样就有可能会产生小概率的弃真错误、取伪错误。
(1)弃真错误:也叫第I类错误或者α错误,它是指原假设是真实的,但是通过样本取估计总体参数假设时,拒绝了原假设。很明显我们拒绝了真实的原假设,所以叫弃真错误。这个错误的概率为α,通常取值为0.0qizhen1,0.05,0.1等,取值越小,犯弃真错误的概率越小
(2)取伪错误:也叫第II类错误或者β错误,它是指原假设实际上时不真实的,但是通过样本取估计总体参数假设时,承认了原假设。很明显我们承认了假的的原假设,所以叫取伪错误。这个错误的概率为β。

(3)检验方式
检验方式分为两种:
(1)双侧检验:所关心的假设问题不具有方向性
(2)单侧检验:左侧检验:希望所考察的数值越大越好;右侧检验:希望所考察的数值越小越好

(4)假设检验的步骤
1、提出原假设和备择假设
2、从所研究总体中抽取一个随机样本
3、构造检验统计量
4、根据显著性水平确定拒绝域临界值
5、计算检验统计量与临界值进行比较

(5)两种假设检验
(1)一个总体的假设检验:在一个总体参数检验中:用到的检验统计量由三个:Z统计量,T统计量(适用于均值与比例);卡方统计量(适用于方差)。

具体适用情况说明:主要考虑样本量\总体标准差
1、大样本(一般以样本数是否大于30来判断),总体标准差已知
z统计量
2、大样本(一般以样本数是否大于30来判断),总体标准差未知
z统计量 用样本标准差代替总体标准差
3、小样本(一般以样本数是否大于30来判断),总体标准差已知
z统计量
4、小样本(一般以样本数是否大于30来判断),总体标准差未知
T统计量 用样本标准差代替总体标准差

补充:总体的假设检验与一个总体假设检验的适用条件类似
建议参考统计学第六版(贾俊平)第六章:假设检验
利用spass软件直接进行分析,python显得效率不够高
接下来,我们用python进行假设检验分析。

数据来源:https://pan.baidu.com/s/1t4SKF6U2yyjT365FaE692A*
数据字段说明:gender:1为男性,2 为女性;Temperature:体温;HeartRate:心率

问题清单:
1、人体体温的总体均值是否为98.6华氏度?
2、人体的温度是否服从正态分布?
3、人体提问中存在的异常数据有哪些?
4、男女体温是否存在异常?
5、体温与心率间的相关性?

import pandas as pd
import numpy as np
from scipy import stats
import statsmodels

test_df=pd.read_csv(r'C:\Users\HEYINGJIE\Desktop\test.csv')
print(test_df.head())
'''
   Temperature  Gender  HeartRate
0         96.3       1         70
1         96.7       1         71
2         96.9       1         74
3         97.0       1         80
4         97.1       1         73
'''
#1、人体体温的总体均值是否为98.6华氏度?
#由于此样本量大于30为大样本,且总体标准差未知,可用z统计量来检测,用样本标准差代替总体标准差
##计算z统计量
mu=96.8#总体均值
temp=test_df["Temperature"]
#样本均值
sample_mean=temp.mean()
#样本标准差
sample_std=np.std(temp,ddof=1)
#样本个数
sample_size=temp.size
#计算z值
z=(sample_mean-mu)/(sample_std/np.sqrt(sample_size))
"""
结果:22.537033076347395
假设显著水平为0.05,采取双侧检验,z(a/2)为±1.96小于22.53....,所以拒绝原假设,及人体体温的均值不是98.6华氏度。
"""
#或者直接使用statsmodels包的statsmodels.stats.weightstats.ztest函数
"""
z=sw.ztest(list(temp),value=98.6
  • 6
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
进行假设检验分析时,可以使用Python进行操作。但是需要注意的是,使用Python进行假设检验可能效率不够高,建议使用专门的统计软件如SPSS进行分析。 假设检验是对总体参数提出一个假设,并利用样本信息来验证这个假设是否成立。在假设检验中,通常会设置两个假设,一个是原假设(H0),也称为零假设,一般是统计者想要拒绝的假设。另一个是备择假设(H1),是统计者想要接受的假设。 在假设检验中,存在两种错误。一种是弃真错误,也称为第一类错误或α错误,指的是原假设是真实的,但通过样本估计总体参数时却拒绝了原假设。弃真错误的概率通常表示为α,取越小,犯弃真错误的概率越小。另一种是取伪错误,也称为第二类错误或β错误,指的是原假设实际上是不真实的,但通过样本估计总体参数时却承认了原假设。取伪错误的概率表示为β。 综上所述,可以使用Python进行假设检验分析,但为了提高效率,推荐使用专门的统计软件如SPSS进行分析。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [利用python进行假设检验](https://blog.csdn.net/qq_45626019/article/details/107997683)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值