“我 95% 相信在美国足球爱好者的比例是 58% 至 62%”, 假设baseline是60%,则置信度是95%,置信区间是60%+-2%
我的理解:每一次采样(比如采样1000个样本),的正确率,作为一个统计样本,放在直方图里,采样10000次统计样本,置信度固定的情况下,置信区间越来越小,直至收敛
置信区间,即-7.3%,-0.5%。这时候我们就可以评价试验的结果为:B版本不如A版本,并且有95%的可能性是差了0.5%到7.3%之间。
置信区间的不同表现,可用作判断试验结果显著与否的标准:在试验运行一段时间之后(一般来说是1-2周),如果置信区间的上下限同为正,说明试验结果是统计显著的,并且试验版本优于对照版本;如果同为负,试验结果也是统计显著的,且对照版本优于试验版本;如果置信区间为一正一负,则说明版本间差异不大。