A/B测试-统计篇

 一.A/B测试理论基础

1.指标的统计属性

指标的统计属性,指的是什么?

在实际业务中,我们常用的指标其实就是两类:

均值类的指标,比如用户的平均使用时长、平均购买金额、平均购买频率,等等。

概率类的指标,比如用户点击的概率(点击率)、转化的概率(转化率)、购买的概率(购买率),等等。

很明显,这些指标都是用来表征用户行为的。而用户的行为是非常随机的,这也就意味着这些指标是由一系列随机事件组成的变量,也就是统计学中的随机变量。我们可以用概率分布来表征随机变量取不同值的概率和范围。所以,A/B 测试指标的统计属性,其实就是要看这些指标到底服从什么概率分布。

在这里,我可以先告诉你结论:在数量足够大时,均值类指标服从正态分布;概率类指标本质上服从二项分布,但当数量足够大时,也服从正态分布

1.1正态分布

在统计上,如果一个随机变量 x 的概率密度函数(Probability Density Function)是:

那么,x 就服从正态分布。其中 ,μ为 x 的平均值(Mean),σ为 x 的标准差(Standard Deviation),n 为随机变量 x 的个数,xi 为第 i 个 x 的值。

 随机变量 x 服从正态分布时的直方图(Histogram)如下:

直方图是表征随机变量分布的图表,其中横轴为 x 可能的取值,纵轴为每个值出现的概率。通过直方图你可以看到,距离平均值μ越近的值出现的概率越高

除了平均值μ,你还能在直方图和概率密度函数中看到另一个非常重要的参数:标准差σσ通过计算每个随机变量的值和平均值μ的差值,来表征随机变量的离散程度(偏离平均值的程度)。 

为了方便理解,我们用 Python 做一个简单的模拟,选取服从正态分布的随机变量 x,其平均值μ=0;分别把 x 的标准差σ设置为 1.0、2.0、3.0、4.0, 然后分别做出直方图。

通过这个直方图去看标准差σ对随机变量分布的影响,是不是就更直观了?σ越大,x 偏离平均值μ的程度越大,x 的取值范围越广,波动性越大,直方图越向两边分散。 

有了方差(方差就是标准差的平方,标准差σ和方差在表征离散程度上其实是可以互换的)和标准差,我们就可以描述业务指标的离散程度了,但要计算出业务指标的波动范围,我们还差一步。这一步就是 z 分数。

要解释 z 分数,就要引出一种特殊的正态分布,也就是标准正态分布(Standard Normal Distribution),其实就是平均值μ=0、标准差σ=1 的正态分布。

标准正态分布的直方图如下所示:

这里的横轴就是 z 分数(Z Score),也叫做标准分数(Standard Score):

 1.2 中心极限定理

这其实是均值类变量的特性:当样本量足够大时,均值类变量会趋近于正态分布。这背后的理论基础,就是中心极限定理。

那么,这个足够大的样本量到底是多大呢?

统计上约定俗成的是,样本量大于 30 就属于足够大了。在现在的大数据时代,我们的样本量一般都能轻松超过 30 这个阈值,所以均值类指标可以近似为正态分布。

1.3二项分布

定义:n个独立的是/非试验中成功的次数的离散概率分布

只有两种结果事件概率分布的

这里我们还是结合着社交 App 的例子,来学习下二元分布。

这款社交 App 在网上投放了广告,来吸引人们点击广告从而下载 App。

现在我们想通过数据看看 App 下载率的分布情况:下载率 = 通过广告下载 App 的用户数量 / 看到广告的用户数量。

因为单个二元事件的结果,只能是发生或者不发生,发生的概率要么是 100% 要么是 0%,所以我们要分析下载率就必须把数据进行一定程度的聚合。这里,我们就以分钟为单位来举例,先计算每分钟的下载率,再看它们的概率分布。

我们有一个月的用户及下载数据,一个月一共有 43200 分钟(60*24*30),因为我们关注的是每分钟的下载率,所以一共有 43200 个数据点。通过数据分析发现,每分钟平均有 10 个人会看到广告,下载率集中分布在 0-30% 之间。

下图是每分钟下载率的概率分布:

你可能会说,概率在某种程度上也是平均值,可以把这里的下载率理解为“看到广告的用户的平均下载量”,那我们已经有 43200 个数据点了,样本量远远大于 30,但为什么下载率的分布没有像中心极限定理说的那样趋近于正态分布呢?

这是因为在二项分布中,中心极限定理说的样本量,指的是计算概率的样本量。在社交 App 的例子中,概率的样本量是 10,因为平均每分钟有 10 人看到广告,还没有达到中心极限定理中说的 30 这个阈值。所以,我们现在要提高这个样本量,才能使下载率的分布趋近正态分布。

提高样本量的方法也很简单,可以计算每小时的下载率。因为每小时平均有 600 人看到广告,这样我们的样本量就从 10 提高到了 600。

下图是每小时下载率的概率分布:

现在再看这张直方图,每小时下载率的分布是不是就趋近于正态分布了!图中下载率的平均值大约为 10%。

在二项分布中,有一个从实践中总结出的经验公式:min(np,n(1-p)) >= 5。其中,n 为样本大小,p 为概率的平均值。这个公式的意思是说,np 或者 n(1-p) 中相对较小的一方大于等于 5,只有二项分布符合这个公式时,才可以近似于正态分布。这是中心极限定理在二项分布中的变体。

在我们的例子中,计算每分钟下载率的概率分布时,np=10*10%=1,小于 5,所以不能近似成正态分布;计算每小时下载率的概率分布时,np=600*10%=60,大于等于 5,所以可以近似成正态分布。

2.假设检验

假设检验 (Hypothesis Testing) 是什么

检测通过样本数据产生的假设在总体数据(即事实)上是否成立。 

2.1“假设”?

在假设检验中的“假设”是一对:零假设(Null Hypothesis)和备择假设(Alternative Hypothesis),它们是完全相反的。在 A/B 测试的语境下,零假设指的是实验组和对照组的指标是相同的,备择假设指的是实验组和对照组的指标是不同的。

2.2检验

单尾检验又叫单边检验(One-sided Test),它不仅在假设中说明了两个比较对象不同,并且还明确了谁大谁小,比如实验组的指标比对照组的指标大。

双尾检验又叫双边检验(Two-sided Test),指的是仅仅在假设中说明了两个比较对象不同,但是并没有明确谁大谁小.

单样本检验是一组样本数据和一个具体数值进行比较

双样本检验是两组样本数据进行比较

配对检验是比较同一组样本数据发生变化前和发生变化后

T 检验:当我们不知道总体方差时

Z 检验:当我们已知总体方差,且样本量大于 30 时

总结对于 A/B 测试来说,对于概率类指标,要选用双尾、双样本的比例检验(Z检验);对于均值类指标,要选用双尾、双样本的T检验

2.3结果

第一类错误(Type I Error):统计上的定义是拒绝了事实上是正确的零假设。在 A/B 测试中,零假设是两组的指标是相同的,当假设检验推断出两组指标不同,但事实上两组指标相同时,就是第一类错误。

发生第一类错误的概率用α表示,也被称为显著水平(Significance Level)。显著水平一般为 5%

第二类错误(Type II Error):统计上的定义是接受了事实上是错误的零假设。在 A/B 测试中,当假设检验推断出两组指标相同,但事实上两组指标是不同时,就是第二类错误。发生第二类错误的概率用β表示,统计上一般定义为 20%

P 值法

在统计上,P 值就是当零假设成立时,我们所观测到的样本数据出现的概率。在 A/B 测试的语境下,P 值就是当对照组和实验组指标事实上是相同时,在 A/B 测试中用样本数据所观测到的“实验组和对照组指标不同”出现的概率。

  • 当 P 值小于 5% 时,我们拒绝零假设,接受备择假设,得出两组指标是不同的结论,又叫做结果显著。
  • 当 P 值大于 5% 时,我们接受零假设,拒绝备择假设,得出两组指标是相同的结论,又叫做结果不显著。

置信区间法

定义:对于一个随机变量来说,有 95% 的概率包含总体平均值(Population mean)的范围。

A/B 测试本质上就是要判断对照组和实验组的指标是否相等,那怎么判断呢?答案就是计算实验组和对照组指标的差值δ。因为指标是随机变量,所以它们的差值δ也会是随机变量,具有一定的波动性。

这就意味着,我们就要计算出δ的置信区间,然后看看这个置信区间是否包括 0。如果包括 0 的话,则说明δ有可能为 0,意味着两组指标有可能相同;如果不包括 0,则说明两组指标不同。

小结:

第一,对于 A/B 测试来说,要选用双尾、双样本的比例检验(概率类指标)或 T 检验(均值类指标)。这决定了你在计算分析 A/B 测试结果时如何选取检验的参数,所以很重要。

第二,在 A/B 测试实践中,计算样本量大小、指标波动性和分析测试结果的时候,会用到这些统计概念。

计算样本量大小时,会用到: 第一类 / 第二类错误及其概率α和β。

计算指标波动性时,会用到:方差和置信区间。

分析 A/B 测试结果时,会用到:各类检验、置信区间、P 值。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
2019年计算机应用基础第三章测试答案 一、单选题 (共 100.00 分) 1.Word文档默认的扩展名为( )。 A..TXT B..DOTX C..DOCX D..RTF 正确答案: C 2.在Word中,按Del键,将删除( )。 A.插入点前面的一个字符 B.插入点前面的所有字符 C.插入点后面的一个字符 D.插入点后面的所有字符 正确答案: C 3.在Word编辑状态,打开了一个文档,进行"另存为"操作后,该文档( )。 A.只能保存在原文件夹下 B.可以保存在已有的其他文件夹下 C.不能保存在新建文件夹下 D.保存后文档被关闭 正确答案: B 4.在Word文档中,要拒绝所作的修订,可以用( )选项卡中的命令完成。 A.常用 B.任务窗格x C.审阅 D.格式 正确答案: C 5.word的查找功能所在的功能区是( )。 A.插入 B.视图 C.编辑 D.文件 正确答案: C 6.在word编辑状态,若要在当前位置插入一个笑脸符号,则课选择的操作是 A.单击"插入"---"绘图"---"基本形状"中的笑脸 B.单击"视图"---"绘图"---"基本形状"中的笑脸 C.单击"视图"---"形状"---"基本形状"中的笑脸 D.单击"插入"---"形状"---"基本形状"中的笑脸 正确答案: D 7.在word编辑状态,如果要设定文档背景,应该选择( )。 A."文件"按钮 B."开始"选项卡 C."页面布局"选项卡 D."视图"选项卡 正确答案: C 8.在Word的编辑状态,设置了标尺后,下列哪种视图方式可以同时显示水平标尺 和垂直标尺( )。 A.大纲视图 B.页面视图 C.草稿视图 D.Web版式视随 正确答案: B 9.下列关于Word中分栏的说法不正确的是( )。 A.各栏的宽度可以不同 B.各栏的宽度必须相同 C.分栏数可以调整 D.各栏之间的间距不是固定的 正确答案: B 10.在Word的编辑状态,若要计算表格中一行的平均值,所用的函数应是( )。 A.AVERAGE( ) B.SUM( ) C.AND( ) D.INT( ) 正确答案: A 11.插入剪贴画后,如要改变围片大小而叉保持长宽比例不变,可以用鼠标拖动图片 的( )。 A.中间 B.边缘 C.顶角 D.任意位置 正确答案: C 12.下列关于WoTd保存文档的说法,错误的是( )。 A.Word只能以".docx"的类型来保存 B.Word可以将一文档保存在不同的位置 C.Word可以将一文档以不同的名称保存 D.若某一文档是第一次保存,Word会打开"另存为"对话框 正确答案: A 13.设置首字下沉格式可以使段落的第一个字符下沉,首字最多可以下沉( )行。 A.1 B.8 C.16 D.10 正确答案: D 14.在Word中,如果要选定较长的文档内容,可先将光标定位于其始位置,再按住( )键,用鼠标单击其结束位置即可。 A.Ctrl B.Shift C.Alt D.End 正确答案: B 15.在word表格中,如果将两个单元格合并,原有两个单元格的内容( )。 A.不合并 B.完全合并 C.部分合并 D.有条件的合并 正确答案: B 16.在word的编辑状态,当前正编辑一个新建文档"文档1",当执行"文件"菜单中的"保存 "命令后( )。 A.该"文档1"被存盘 B.弹出"另存为"对话框,供进一步操作 C.自动以"文档1"为名存盘 D.不能以"文档1"存盘 正确答案: B 17.要对Word文档进行字数统计,可以选择自定义状态栏中的( )。 A.拼写和语法检查 B.修订 C.语言 D.字数统计 正确答案: D 18.若想实现图片位置的微调,可以使用( )的方法。 A.Shift键和方向键 B.Del键和方向键 C.Ctrl键和方向键 D.A1t键和方向键 正确答案: C 19.设置页眉和页脚,先选择( )选项卡。 A."开始" B."插入" C."引用" D."页面布局" 正确答案: B 20.下面关于Word中表格处理的说法错误的是( ), A.可以通过标尺调拯表格的行高和列宽 B.可以将表格中的一个单元格拆分成几个单元格 C.Word提供了绘制斜线表头的功能 D.不能用鼠标调整表格的行高和列宽 正确答案: D 21.采用( )的做法,不能增加标题与正文之间的段间距。 A.增加标题的段前间距 B.增加第一段的段前间距 C.增加标题的段后间距 D.增加标题和第一段的段后间距 正确答案: A 22.在下列操作中,执行( )不能选取全部文档。 A.执行"编辑"功能区中的"选择" "全选"命令或按Ctrl+A键 B.将光标移到左页边距,当光标变为左倾空心箭头时,按住Ctrl键,单击文档 C.将光标移到左页边距,当光标变为左倾空心
统计数据分析求职信全文共5页,当前为第1页。统计数据分析求职信全文共5页,当前为第1页。统计数据分析求职信 统计数据分析求职信全文共5页,当前为第1页。 统计数据分析求职信全文共5页,当前为第1页。 统计数据分析求职信 小编为您收集整理的数据分析求职信,提供全面的数据分析求职信信息,希望对您有用! 数据分析求职信一:数据分析--面试 笔试题 数据分析师笔试题: 1、目前进出高速公路的车辆有ETC卡自动付费和人工手动付费两种方式,某高速公路公司的经营部门计划开展定向营销策略让更多的车去办理ETC卡,经营部门需要你给出提高定向营销成功率的建议和策略。 经营部门给你提供了一份车辆进出收费站的缴费数据记录,请结合你的数据分析经验,给经营部门提供一份分析报告(简要说明一下分析过程、假设条件/变量、分析结果和展现方式、分析模型、模型评估方法等)。 2、以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师, a) 从数据中,你看到了什么问题?你觉得背后的原因是什么? b) 如果你的老板要求你提出一个运营改进计划,你会怎么做? 表如下:一组每天某网站的销售数据 3、你曾经处理过的最大的数据量有多大?你是如何处理这些数据的?处理的结果是什么? 4、你最喜欢的编程语言是什么,喜欢的数据统计分析软件有哪些?喜欢的理由是什么? 5、请举例说明Map/Reduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些? 6、请简要介绍你了解的关联规则、分类、聚类等数据分析方法,举例说明其分别有哪些适用场景? 7、你是否做过数据可视化工作?如有,请列举你做过的数据可视统计数据分析求职信全文共5页,当前为第2页。统计数据分析求职信全文共5页,当前为第2页。化项目及使用过的.可视化工具有哪些? 统计数据分析求职信全文共5页,当前为第2页。 统计数据分析求职信全文共5页,当前为第2页。 8、请简要介绍你使用过的数据库、熟练程度及使用的使用过的数据库工具。 数据分析求职信二:数据分析师工作简历模板 基本情况 姓名 xxx 性别 女 出生日期 1985.11.21 民族 汉族 血型 O型 婚姻状况 已婚 教育程度 本科 工作年限 4年 政治面貌 群众 现有职称 无 户口所在地 山东省青岛市 现居住地 青岛市 联系方式 统计数据分析求职信全文共5页,当前为第3页。统计数据分析求职信全文共5页,当前为第3页。电子邮箱 统计数据分析求职信全文共5页,当前为第3页。 统计数据分析求职信全文共5页,当前为第3页。 求职意向 期望从事职位:数据分析师 期望工作地点:青岛市 自我评价 1、具有扎实的统计学专业基础知识,掌握常见的统计方法; 2、熟练掌握常用的数据挖掘方法,算法和相关工具、熟练使用SAS软件; 3、数据处理能力很强,熟练使用Office软件; 4、有良好的逻辑思维能力,注重细节、对数字敏感,能挖掘数据背后的意义,能够独立完成、撰写业务数据分析报告。 工作经历 2010年7月-2012年7月 山东****网络有限公司 单位性质:合资 所任职位:数据分析师 工作地点:青岛市 职责描述: 1、根据业务需求,制定用户使用行为数据的采集策略,设计、建立、测试相关的数据模型,从而实现从数据中提取决策价值,撰写分析报告; 2、跟踪并分析客户业务数据,为客户的发展进行决策支持; 3、完成对海量信息进行深度挖掘和有效利用,充分实现数据的商业价值; 4、支持微博事业部等产品部门下的运营,产品,研发,市场销售等各方面的数据分析,处理和研究的工作需求。 2008年6月-2010年6月 ****公司 单位性质:国企 所任职位:数据分析助理 统计数据分析求职信全文共5页,当前为第4页。统计数据分析求职信全文共5页,当前为第4页。工作地点:青岛市 统计数据分析求职信全文共5页,当前为第4页。 统计数据分析求职信全文共5页,当前为第4页。 职责描述: 1、完成对行业销售及相关数据的分析、挖掘,熟练制作数据报表、撰写评估分析报告; 2、独立完成用户行为特征与规律的分析,关注市场动态与风险,为产品方向提出合理建议; 3、在分析师的指导下构建公司业务领域数据分析与挖掘模型和方法论; 4、针对历史海量商业数据,能及时发现和分析其中隐含的变化和问题,为业务发展提供决策支持; 5、完成数据分析相关的需求调研、需求分析等。 项目经验 2011年5月*****项目 项目职责: 1、收集用户使用行为数据; 2、完成行为数据的分析; 3、制定模型与产品运营间的联动接口。 教育背景 2004年9月-2008年6月 山东**大学 统计学专业 本科 主要课程:数学分析、几何代数、数学实验,常微分方程、数理统计、抽样调查、多元统计、计算机应

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值