阅读之前看这里👉:博主是正在进行数据分析师求职的一员,博客记录的是在学习和求职过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。
目录
虽然在前面各文章总结中提到了假设检验,但是没有单独成文,所以对于这个面试中重点,需要尤其提及,特此单独写了一篇文章记录,很多内容是参考公众号小洛和阿狸的,大家需要的可以借鉴参考以及准备复习。
1.什么是假设检验
在统计学中,想要证明一个命题是正确的,只能通过证明其否命题是错误的来达到目的。假设检验是用统计数据来判断命题真伪的方式。我们常常会假设两个命题:H0:备受质疑的命题,H1:有待验证的问题。
2.什么是显著性水平、置信度、检验统计量
显著性水平:在假设检验中,犯第一类错误的上限,用α表示。
置信度:用1-α表示检验的置信度。
检验统计量:即计算检验的统计量。根据给定的显著性水平,查表得出相应的临界值。再将检验统计量的值与该显著性水平的临界值进行比较,得出是否拒绝原假设的结论。
3.用通俗的语言解释P-值,如何计算P-值
P-值:P-值是一个概率值,它度量样本所提供地证据对原假设的支持程度,P-值越小说明拒绝原假设地证据越多。
如何计算P-值:
利用检测统计量地值可以计算P-值,依赖下侧检验、上侧检验还是双侧检验。对于下侧检验,P-值是检验统计量小于或等于样本所给出的检验统计量的值的概率。
步骤:(z检验)
1.用公式计算检测统计量的z值
2.下侧检验:根据标准正态分布,计算z小于或等于检验统计量的值的概率(下侧面积)
3.上侧检验:根据标准正态分布,计算z大于或等于检验统计量的值的概率(上侧面积)
4.假设检验的两种错误
第一类错误是指原假设成立的情况下错误地拒绝了原假设;第二类错误则是相反,指没有成功地拒绝不成立地原假设,如下表:
5.单双侧检验
当假设关键词有不得少于/低于的时候用左侧检验,比如灯泡的使用寿命不得少于/低于700小时时;当假设关键词有不得多于/高于的时候用右侧检验,比如次品率不得多于/高于5%时。双侧检验指按分布两端计算显著性水平概率的检验,应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H0:μ1=μ2。
6.假设检验方法
假设检验方法:z检验,t检验,卡方检验
6.1z检验
z检验:当总体标准差已知,样本量较大时用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。如果检验一个样本平均数与一个已知的总体平均数的差异是否显著,其z值计算公式为:
z = x ˉ − μ σ x ˉ = x ˉ − μ σ / n z=\frac{\bar x - \mu}{\sigma_{\bar x}} =\frac{\bar x - \mu}{\sigma/ \sqrt{n}} z=σxˉxˉ−μ=σ/nxˉ−μ
如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著,其Z值计算公式为:
z = x ˉ 1 − x ˉ