理论上样本量越大,越能反应实际情况,减少误差。但实际工作场景中,样本量同样不能过大,有两点原因
流量不足:小公司线上流量较小,产品开发过程中需要多个实验测试,并且每个实验的样本尽量不重叠,如果拿出来大部分做实验,会拖慢开发进度;
试错有成本:如果某个实验选择了50%的样本,而这个实验组的转化率降低了非常多,对收入有风险,试错成本高。
结论:尽量选择最小可靠性样本。
怎样计算需要多少样本
可直接使用网上计算器:样本量计算器
需要输入4个参数:
Statistical power:统计功效,实验中最想得到的结果。
Significance level:显著水平
Baseline rate:实验前的历史数据
Minimum detectable effect:最小可探测效应
要搞清楚Statistical power和Significance level
需要先来了解另一个概念:ground truth。
ground truth:假设我们一一调研用户,问他们会选择点击哪个按钮,并把数据记录下来,这样得到的结果就是ground truth。
那么ground truth对应的就是我们的预测值,把预测值与实际值做对比,会出现如下四种情况: