显著性校验与A/B测试

最近在极客时间学习“程序员的数学基础课”,整理学习笔记如下。

机器学习有不同的算法,如朴素贝叶斯、决策树等,每种算法都会产生不同的效果,如何量化地评价各种算法的结果?

互联网公司一般通过用户的在线行为来测试算法的效果,这种测试有一个问题是如何排除非测试因素的干扰。

图片来源极客时间“程序员的数学基础课”

如上图转换率在2016年1月12日有一个突增,假如当天上线了一个新的算法A,那转化率一定是上线的新算法A造成的吗?现实结果是不一定,2016年1月12日可能是有一个促销打折活动导致转化率上升。假如我们取消1月12日上线的技术方案,转换率用虚线表示,如下图所示。

图片来源极客时间“程序员的数学基础课”

由图可知,取消技术方案A之后,转化率反而上升了,说明技术方案A并不会导致转换率的上升。简单的在线测试可能会导致错误的结果,我们需要一个更健壮的A/B 测试。

所谓A/B测试,就是为同一个目标设置两个或多个测试方案,一部分用户使用测试方案A,另一部分使用测试方案B,最后比较测试方案A的结果和测试方案B的结果,看那两种测试方案好。

那怎么评价A、B两个方案那个更好呢?假如取两种方案的平均值是否可以呢?

我们先看两张正态分布的图

图片来源极客时间“程序员的数学基础课”

图片来源极客时间“程序员的数学基础课”

由上图我们可以知道A的平均值u1,B的平均值为u2,u1<u2,而下图我们会得出相反的结论,原因是采样得到的数据无法反映整体的分布。

因此简单地采用平均值会得出错误的结论。

实际实践中我们会采取统计显著性检验的方式来评价多个方案的结果。为了介绍假设检验,先介绍几个基本的概念。

显著性差异

由上文中两个正太分布图我们可以知道,导致数据差异的两种原因。

第一种是分布导致的差异,A分布的均值小于B分布,方差相差不大,那么分布A随机产生的数据大概率小于分布B随机产生的数据。

第二种是有采样误差导致的差异,也就是说采样数据无法反映数据的整体分布。上文中采样的十个数据导致的误差。

我们把由第一种原因导致的差异称为“显著性差异”,第二种原因导致的差异我们称“无显著性差异”。

显著性差异就是研究多组数据间的差异是由数据分布导致的还是采样导致的。

我们需要区分“差异具有显著性”和“具有显著差异”,前者指的是数据分布导致的差异,后者指的是指标意义上相差较大。

统计假设检验和显著性校验

统计假设检验就是事先对随机变量的参数或整体做出假设,然后利用样本信息来判断假设是否合理。统计学上,这种假设称为原假设或零假设H0,其对立假设为H1。如果通过样本信息判断出H0不成立,那么可以推断出H1成立。

假设检验的一般步骤是 先假定原假设成立,然后计算其会导致什么结果。若在单次实验中产生了小概率事件,则拒绝原假设,接受其对立假设,如果没有产生小概率事件,则不能拒绝原假设。

什么是小概率事件呢?通常把产生概率小于0.05的事件称为小概率事件,当然根据实际需要这个值也可设置成0.1、0.001。统计学上,我们称这个概率为α,称为显著性水平。

显著性检验是统计假设检验的一种,显著性检验可以帮组我们来判断多组数据之间的差异,是由数据分布导致的“必然”还是采样导致的“偶然”(必然与偶然与显著性水平α有关)。显著性假设检验先假设数据分布之间没有差异,如果样本发生的概率小于显著性水平α,则小概率事件发生了,拒绝原假设,也就是认为多组数据之间有分布差异,如果样本发生的概率大于显著性水平,则接受原假设,认为多组数据之间没有分布差异。

P值

已经定义了显著性检验和显著性水平,那么如何为多组数据计算他们之间差异的显著性?我们用P值(P-value)来表示。P是Probability的简称,即原假设H0为真时,样本出现的概率。也就是我们观察到的样本数据符合原假设H0的概率。 

如果P值特别小,则认为样本值与假设H0的期望有很大偏差,可以拒绝原假设。P值越小,差异越具有显著性。反之,则接受原假设。

在显著性检验中,原假设是认为多组数据之间无显著性差异,来源于同一个分布,如果计算的P值很小,则我们有理由拒绝原假设,认为多组数据来源于不同的数据分布。实际中,我们计算出P值,然后与显著性水平α进行比较,从而决定是否接受原假设。

本次我们仅仅介绍了统计假设检验的相关概念,下篇我们将介绍具体的统计假设检验方法 方差分析(F检验)

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值