5 样本量计算
统计学上根据统计量抽样分布和边际误差确定样本量。
样本量计算工具:https://www.evanmiller.org/ab-testing/sample-size.html
业务层面是以一类错误临界值二类错误临界值计算。
其中,区间估计算式
E
2
E^2
E2为:
z
α
/
2
z_{\alpha/2}
zα/2可用EXCEL中的NORM.INV算出。
不过真实业务一般是下面的情况:
这里的
k
k
k指的是a组样本量与b组样本量之比,
μ
A
−
μ
B
\mu_A-\mu_B
μA−μB是提高/降低的目标。
当没有做抽样,不知道实验组总体方差时,可以用现有总体的方差代替。
6 检验策略选择、设计分组策略
实验自变量个数指的是我们采用策略的个数,比方说我们策略1是改变字体大小,策略2是改变字体颜色,那么此时实验自变量个数就是2。而自变量水平数指的是策略中的几种方案,比方改变颜色这个策略中我选择改成红蓝绿三种颜色,那么策略2的自变量水平数就是3+1个原水平,也就是4。
通常情况下我们都算采用独立样本,那么什么时候会选择配对样本呢?
- 实验对象十分特殊,都有某种特点;
- 实验对象的状态持续时间比较长;
- 实验对象数量较少。
举个例子,我想出了一个治疗罕见疾病的方法,想做ABTest,可病人实在太少了,那这个时候就可以考虑配对样本。(例子随便举的)
7 当企业没有AB测试的条件的时候,如何解决问题?
可以大致分为3中情况:
- 没有系统。
没有灰度发布的系统,即没有向不同群体提供不同服务的系统。
解决方法:人工划分群体或者线下测试。 - 用户量不够
解决方法:如果统计量是比例数据的话,可以提高测试周期,如统计滴滴每日出事故的比例,可以提取一周的订单数据;如果产品本身针对的就是小众用户的话,那就有点难搞了,只能考虑用简单的对照法试着解决问题。 - 时间成本高
解决方法:如果是时间跨度过长的话,考虑缩小时间跨度,比方说用周活跃率代替月活跃率;如果是转化周期过长的话,这时候就难搞一点,比方说用户留存率往往就需要较长时间,很难用缩短时间的方法来替代。
二、实验结论分析
1 决策统计检验
做实验决策可以通过统计量 及 统计量的P值来实现。
同时也可以通过样本量分布和显著性水平来确定拒绝域和接受域,从而拒绝或者接受结果。这里可以参考我另一篇博客。
2 决策业务问题
结束语
按我目前的理解来看,以上提到的七大流程并非全由数据分析师来执行,如测试立项中的测试目的可能由专门的产品人员负责,项目周期可能由项目经理来负责。
数据分析师主要就是跟数据打交道,但是一个只懂数据的数据分析师不是好的数据分析师,同样的要掌握好业务知识,懂得与产品人员沟通。
对以上内容有不认同的朋友,一切以你为准,本人新手一枚,内容仅供参考。
推荐关注的专栏
👨👩👦👦 机器学习:分享机器学习实战项目和常用模型讲解
👨👩👦👦 数据分析:分享数据分析实战项目和常用技能整理
关注我,了解更多相关知识!
学习路线:
这个方向初期比较容易入门一些,掌握一些基本技术,拿起各种现成的工具就可以开黑了。不过,要想从脚本小子变成黑客大神,这个方向越往后,需要学习和掌握的东西就会越来越多以下是网络渗透需要学习的内容:
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!