python卡方检验kf_data_统计学中的各种检验-scipy.stats和statsmodels.stats的使用

这里会罗列一些统计学中的检验方法,当然顺序以笔者遇到的为准。

1.方差分析

1.1 概述

对于均值的检验,一般分为以下几种情况:

某样本均值与常数的比较

两个样本均值的比较

两个以上样本均值的比较

对于前两种检验,用t检验和z检验完全可以handle,第三种也可以用t/z检验两两进行,但是毕竟耗时,用方差分析就可以解决这个问题了。

这个问题面试滴滴的时候有被问到,立志做数据科学家的朋友们,还是学习一下。

比较常用的方差分析方法包括:单因素方差分析、多因素方差分析、协方差分析、多元方差分析、重复测量方差分析、方差成分分析等。

1.2 常用术语

因素

因素是方差分析的研究对象,是一个独立的变量,比如饮料的不用颜色就是因素。

水平

因素的取值就是水平,比如饮料颜色的红、黄、蓝、绿就是水平。

控制变量

方差分析中可以人为控制的变量,比如饮料的颜色。

随机变量

与控制变量相对应就是不可以人为控制的变量。

观察变量与观察值

方差分析中受控制变量和随机变量影响下观察的目标成为观察变量,观测得到的数值就是观察值。饮料再不同颜色的销售额就是观测变量,具体的取值就是观察值。

1.3 单因素方差分析原理

进行方差分析的要满足两个前提:

总体服从正态分布

样本满足方差齐性

方差分析的目的是检验各个样本的均值是否相等,原假设是样本均值相等,备择假设是样本均值不相等。一般来说造成均值差异的原因有两个:

因素水平不同造成的差异,成为系统性误差。

承接饮料这个案例,饮料颜色就是系统性误差。系统性误差用组间方差来衡量,当然组间方差有可以衡量随机性误差,但主要是为了衡量系统性误差。

样本抽样随机性造成的误差,成为随机性误差。

同样,饮料在不同商场的销售额也不同,这是随机性误差。随机性误差用组内方差来衡量。

如果因素水平对观察变量影响不大,那么组间方差只有随机性误差的影响,组间方差和组内方差的比接近于1,相反则大于1,当这个比值大于某个值的时候我们就可以得到显著性差异的结论。方差分析就是通过比较方差做出接受或拒绝原假设的结论。

1.4 单因素方差分析案例

饮料案例,我们要观察饮料的不同颜色对销售额是不是有显著的影响,基础数据如下:

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值