前言:对于数据分析师来说,统计学是必不可少的基础知识。不仅工作中会经常运用其概念,且也几乎是数据分析师工作的面试必考题(尤其是校招以及转行的朋友,当实战经验少的时侯会更关注基础功底是否扎实)。所以我准备开始以较简练的语言,辅以简单易懂案例,总结一些统计学核心的知识点。我们常用的ab实验,其背后的原理就是统计学中的假设检验,今天我们来详细说说假设检验。
一、常用核心概念
什么是假设检验:假设就是对从总体参数(均值、比例等)的具体数值所作的陈述,比如,我认为配方一比配方二的效果要好。而假设检验就是先对总体的参数提出某种假设,然后利用样本的信息判断假设是否成立的过程,比如上面的假设信息我该接受还是拒绝。
什么是显著性水平:显著性水平是一个概率值,原假设为真时,拒绝原假设的概率,表示为α,常取值为0.05、0.01、0.10。一个公司招聘,本来准备招聘100个人,公司希望只有5%的人是混水摸鱼招聘进来,所以可能会有5个人混进来,所谓显著性水平α,就是你允许有多少比例混水摸鱼的能通过测试。
原假设与备择假设:待检验的假设又叫原假设(零假设),一般表示为H0,原假设一般表示两者没有显著性差异。与原假设进行对比的叫备择假设,表示为H1。一般在比较的时候,主要有等于、大于、小于。
检验统计量:即计算检验的统计量。根据给定的显著性水平,查表得出相应的临界值。再将检验统计量的值与该显著性水平的临界值进行比较,得出是否拒绝原假设的结论。
P值:是一个概率值,如果原假设为真,p值是抽样分布中大于或小于样本统计量的概率。左检验时,p值为曲线上方小于等于检验统计量部分的面积。右检验时,p值为曲线上方大于等于检验统计量部分的面积。
假设检验的两种错误:类型 I 错误(弃真),如原假设为真,但否定它,则会犯类型 I 错误。犯类型 I 错误的概率为 α(即您为假设检验设置的显著性水平)。α 为 0.05 表明,当您否定原假设时,您愿意接受 5% 的犯错概率。为了降低此风险,必须使用较低的 α 值。但是,使用的α值越小,在差值确实存在时检测到实际差值的可能性也越小。类型 II 错误(采伪),如原假设为假,但无法否定它,则会犯类型 II 错误。犯类型 II 错误的概率为 β,β 依赖检验功效。可以通过确保检验具有足够大的功效来降低犯类型 II 错误所带来的风险。方法是确保样本数量足够大,以便在差值确实存在时检测到实际差值。
单双测检验:当假设关键词有不得少于/低于的时候用左侧检验,比如灯泡的使用寿命不得少于/低于700小时时;当假设关键词有不得多于/高于的时候用右侧检验,比如次品率不得多于/高于5%时。双侧检验指按分布两端计算显著性水平概率的检验,应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H0:μ1=μ2。
检验结果:单侧,若p值>α,不拒绝H0,若p值1/2α,不拒绝H0,若p值<1/2α,拒绝H0
二、假设检验方法
假设检验方法:z检验,t检验,卡方检验(卡方本篇不详述,应用较少)
2.1 Z检验
Z检验原理:当总体标准差已知,样本量较大时用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。如果检验一个样本平均数与一个已知的总体平均数的差异是否显著,其Z值计算公式为:
如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著,其Z值计算公式为:
Z检验实例:
研究正常人与高血压患者胆固醇含量,比较两组血清胆固醇含量有无显著差异。
正常人组数据:n1=506(样本量) μ1=180.6(样本均值) s1=34.2(标准差)
高血压组数据:n2=142 μ2=223.6 s2=45.8
1、提出假设,规定适当检验统计量,确定检验水平:
H0:μ1=μ2
H1:μ1≠μ2
α=0.05,样本量较大,且检验来自两组样本平均数的差异性,故选择z检验统计量
2、计算统计量z值
将已知数据带入z检验公式,
计算假设检验统计量 z=10.4
α=0.05,双侧故 α/2=0.025,1-α=0.975 查表,确认临界值为1.96
3、确定p值,做出推断结论
10.4(z值)>1.96(临界值),故p<0.05,按α=0.05水准拒绝H0,接受H1,可以认为正常人和高血压患者的血清胆固醇含量有差异。
2.2 t检验
t检验:分为单样本的t检验、配对样本均数t检验(本篇不详细说)、两独立样本均数t检验。t检验应用于两组计量资料小样本比较,样本对总体有较好代表性,对比组间有较好组间均衡性,即随机抽样和随机分组。且样本来自正态分布总体。单个样本t检验适用于样本均数与已知总体均数μ0的比较,目的是检验样本均数所代表的总体均数μ是否与已知总体均数μ0有差别。应用于总体标准α未知的小样本资料,且服从正态分布。
单样本t检验实例:
某地新生儿出生体重为3.3kg,从该地难产儿中随机抽取35名婴儿,平均体重为3.42kg,标准差为0.4kg,问该地难产儿出生体重与新生儿体重是否不同?
1、提出假设,规定适当检验统计量,确定检验水平:
H0:μ=μ0
H1:μ≠μ0
α=0.05 ,样本均数与已知总体均数μ0的比较,所以选择单样本t检验
2、计算统计量z值
n=35 μ0=3.3 μ=3.42 s=0.4
自由度=n-1=34,α=0.05,双侧故 α/2=0.025,1-α=0.975,自由度34,查表得出临界值为2.032
3、确定p值,做出推断结论
因为1.77(z值)<2.032(临界值),故p>0.05,按α=0.05水平,差别无统计学意义,不拒绝h0,不能认为该地难产儿与新生儿体重有差异。
两独立样本t检验(ab实验背后原理):适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。两独立样本t检验要求两样本所代表的总体服从正态分布N(μ1,σ^2)和N(μ2,σ^2),且两总体方差σ1^2、σ2^2相等,即方差齐性。若两总体方差不等需要先进行变换。两独立样本t检验的检验假设是两总体均数相等,即H0:μ1=μ2,统计量计算公式为:
两独立样本t检验实例:
25例糖尿病患者随机分成两组,甲单纯药物治疗,乙采用药物合并饮食治疗,二月后测空腹血糖如下,问两种疗法血糖值是否相同?
数据:n1=12 s1=182.5 n2=13 s2=141
1、提出假设,规定适当检验统计量,确定检验水平:
H0:μ1=μ2 H1:μ1≠μ2
α=0.05, 选用两独立样本t检验方法
2、计算统计量z值
将数据带入公式,计算得t=2.639
自由度=n1+n2-2=23 α=0.05,双侧故 α/2=0.025,1-α=0.975,查表得临界值为 t=2.069
3、确定p值,做出推断结论
因为2.639(t值)>2.069(临界值) ,故 p<0.05 , 在0.05水准下,拒绝H0,接受H1,存在显著性差异,故认为两种疗法效果不同。
假设检验应用场合
所谓假设检验(Hypothesis Testing)也就是基于数理统计学,判定假设条件是否成立的方法论。
其作为统计学的一门学问,其特有的方法论可以帮助使用者从千头万绪中抽丝剥茧,指明分析问题的思路,并核算所需的最小样本量,从而大幅提高判断的效率和准确性,为正确决策提供可能。
凡是涉及到判定真伪,做出决策的场合都可以尝试用假设检验的逻辑和方法。
如果是一名制造工程师
为了改善某个问题完成了一组测试, 其原假设H0:“实验有效“,
如果做出了错误的判断会导致:
- I类错误
试验有效,但判定无效.造成错失改善机会.均值不等,但判定相等.后果同上.标准差不等但判定相等后果同上
- II类错误
试验无效,但判定有效,造成无效的措施被采纳.
均值相等,但判定不等,后果同上.
标准差相等,但判定不等,后果同上.
如果是一名法官
庭审上面对疑犯的原假设H0是“疑犯无罪”(注意律政的原则是疑罪从无),
做出了错误的判断会导致:
- I类错误
清白的人进监狱,需要特别谨慎,一般选择5%
- II类错误
罪犯逍遥法外,一般选择10%
如果是一名适婚女性
面对当前的男朋友,其原假设H0是“他是一个可以依靠的男人”,
如果误判会导致:
- I类错误
错过Mr. Right,期待下次的机会
- II类错误
一次误终生(至少一段时间)
如果是一名股民
面对专家推荐的一只股票,其原假设H0是“股票会升值”,
错误的判断会导致:
- I类错误
错过赚钱机会
- II类错误
可能要血本无归
如果准备跳槽
面对外面的诱惑,其原假设H0 是“跳槽有利”,
做出了错误的判断会导致:
- I类错误
- 错过好的机会
- II类错误
跳坑里了
管理者如何面对有疑问的说辞
如果是一名管理者面对有疑问的说辞:原假设是“相信此人是诚实/正确的”,
做出了错误的判断会导致:
- I类错误
错过好的改善或者盈利 - II类错误
可能使得企业遭受或大或小的损失,随着企业对管理人员的容错范围在收窄,对其职业生涯会产生直接影响。
这也是管理者一般不轻信别人的原因。
这些就是假设检验的一般应用场合,当然也包括彩票事业。
篇尾:一般的教材会强调I类错误(α risk一般取5%)与II类错误(β risk一般取10%)的差别 ,实践上看带来的益处是减小样本量。
但是无论取5%还是10%,在苛刻的场合都不够稳健,而是推荐同取1%;对应一般的场合,推荐俩类错误都选择5%。