ADF单位根检验三种形式_数据分析/产品/运营干货分享:一文入门假设检验

分享简介

假设检验作为产品运营/数据分析同学的必备技术在产业中具有很高的实用性,所以本文以简单易懂的讲解与例子对假设检验进行展示,对于完整的底层逻辑和跟详细的分类解法可以参考文末的延申阅读与统计学教材。这篇文章偏向有业务需求要快速上手的同学进行学习,也欢迎专业大佬给出改进意见和修正。

本次分享通过以下workflow对假设检验(本文具体针对Z型&T型检验)进行简单讲解:

  • 定义理解
  • 公式及计算流程
  • 应用实例
  • 评价

文末附上引用链接以及延申阅读。

定义理解

  • 什么是假设检验

一句话解释:

假设检验“相当于”统计学中的等号。


用实例解释:

A同学想计算出随机掷出若干次标准骰子的过程中面值大于3的概率,根据统计学原理易得概率为 二分之一(0.5)。A同学为了验证这一结果随机掷出50次骰子,经过计算概率为0.4,两者结果看似不符。但A同学错了吗?出于生活经验以及样本数量对预测性能的影响,并不能判断A同学的验证实验是错误的。

总结:

在有随机性参与的数学计算中,理论值和你实验中取样后算出来的计算值是会有一定程度的偏 差的。所以,假设检验的用处就是告诉你,你算没算“错”(这句话还是不严谨,下文会有更严谨的形式)。
  • 统计学定义
假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
  • 假设检验的类型

根据样本的不同分布,假设检验可分为:Z型,T型,F型,X^2型 等假设检验;

根据样本的群体数量,假设检验可分为:单样本,双样本,多样本等假设检验;

根据假设的不同形式,假设检验可分为:单边(左/右边)检验,双边假设检验。

出于篇幅时间受限以及业务导向需求,本文主要对单样本Z型,T型单/双边假设检验进行详解。

公式以及计算流程

1:确定假设检验类型

在设计假设检验时,我们首先需要通过样本的数量,分布,假设的类型来确定假设检验的类型。

  • 在本文讨论范围内,当满足以下条件时,我们选择单样本Z型检验:

整体方差/标准差已知;

样本量大于30;

样本数量为1;

群体服从正态分布;

  • 在本文讨论范围内,当满足以下条件时,我们选择单样本T型检验:

整体方差/标准差未知;

整体方差/标准差已知但样本量小于等于30;

样本数量为1;

群体近似服从正态分布;

2:定义原假设与备择假设

在我们设计一个假设检验时,我们首先要清楚我们的原假设(null hypothesis / h0),备择假设(alternative hypothesis / ha)分别是什么。
原假设与备择假设是一对互斥且合集为全集的事件,记原假设为A(一般选择为我们不希望出现的事件),备择假设为B(一般选择为我们希望出现的事件),假设阈值为x,在单样本假设检验中:

9dfb6ead16f435c32f1a3c1f87262862.png

3:计算统计检验量

    • Z型检验:(由于文本错误,此处u与u0是同一个变量)

9d59c349b3e5873098920d1b311b7dea.png
    • T型检验:(由于文本错误,此处u与u0是同一个变量)

3f24d769d9c5934011a5e8b9df6c9e5f.png

2d39942fa91414ee1408dbc00a65d852.png

a2f2f9f894f9b867b8fc6b42113dfbb0.png

4:通过对比显著性水平得出结论

在我们设计假设检验时,我们需要根据业务需求与实际情况提前确定显著性水平。显著性水平,可以理解为统计学中判断是否“等于”的一种“容错范围概率”(便于理解解释,非严谨学术定义),符号为α,常取0.05或0.01。

  • Z型检验对比显著性水平

当以下图中情况成立时我们可以得出结论:在显著性水平为α(常取0.05或0.01)时,我们有证据拒绝原假设,接受备择假设;

若以下情况不成立,则结论为:在显著性水平为α(常取0.05或0.01)时,我们没有证据拒绝原假设(“接受原假设”)。

9d43863ae1910695f8573ba5f80cf1b9.png

图中三种类型检验对比符号的左边为步骤3中求得的统计检验量,右边为显著性水平下的统计检验量(可通过查表http://www.z-table.com/ ,计算器,网络资源确定数值)。

    • T型检验对比显著性水平

同理可得,当以下图中情况成立时我们可以得出结论:在显著性水平为α(常取0.05或0.01)时,我们有证据拒绝原假设,接受备择假设;

若以下情况不成立,则结论为:在显著性水平为α(常取0.05或0.01)时,我们没有证据拒绝原假设(“接受原假设”)。

807a3c095cc96672146fae46008ec066.png

图中三种类型检验对比符号的左边为步骤3中求得的统计检验量,右边为显著性水平下的统计检验量(可通过查表http://changingminds.org/explanations/research/analysis/t-test_table.htm (注:图上的n-1代表自由度,对应表中第一列,并非相乘关系),计算器,网络资源确定数值)。

应用实例

    • 题干

某智能语音系统一经推出好评如潮,用户增长组的数据分析师定义:当用户活跃天数(u)超过10天即为高频用户。为了验证当前全体用户是否为高频用户这一假设,现抽取100名用户的活跃天数进行检验。假设群体服从正态分布,平均活跃天数(xbar)为11天,总体标准差(sigma)已知并等于5,显著性水平(a)为0.05.

    • 解题流程

1:根据前文“假设检验的类型”,本题中样本数量为1,样本量>30,总体标准差已知,群体服从正态分布,故此假设检验为单样本Z型检验。

2:根据前文“定义原假设与备择假设”,由于我们希望当前用户为高频用户,故:

  • h0: u<=10
  • ha: u>10

此假设检验为单样本Z型右边检验。

3: 根据前文“计算统计检验量”,将u=10,xbar=11,sigma=5,n=100代入Z型检验统计量公式可得Z=2

4:根据前文“通过对比显著性水平得出结论”,通过查表显著性水平为0.05的Z型右边统计检验量为1.645,由于我们的统计检验量2>显著性水平检验量1.645,所以我们的结论为:在显著性水平为0.05的前提下,我们有证据拒绝原假设,接受备择假设,即当前全体用户为高频用户。

评价

    • 优点
      • 假设检验作为统计学中经典模型,应用范围十分广泛。可以根据样本数量,群体分布,验证目的来灵活设计假设检验;(例如验证AB测试的效果可以使用双样本T/Z型检验)
      • 假设检验由于便于理解,可以从样本行为估测整体行为,在总体样本巨大时可以从样本入手分析节约大量计算时间。
    • 局限性
      • 由于假设检验的条件和数据质量要求相对较高(需要标准差,群体分布等),所以在实际业务中在数据缺失或样本分布未知的情况下会对假设检验的准确度产生影响;
      • 由于假设检验是定性分析,在数据分析中只能起到判断/分类的作用,需要结合其他定量分析技术(例如:回归分析)来形成完整的数据分析流程报告。

声明:本文章由知乎用户rianwesley原创,转载请标明出处,禁止用于商业用途,违者将追究法律责任。

附:引用链接&延申阅读

  • AB测试应用及搭建:https://zhuanlan.zhihu.com/p/79690021
  • 假设检验-一篇文章就够了:https://zhuanlan.zhihu.com/p/86178674
  • 推论统计-之假设检验:https://zhuanlan.zhihu.com/p/93182578
  • 人话版hypothesis testing(假设检验):https://zhuanlan.zhihu.com/p/31322539
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值