目前学习了解假设检验中,学的不是很透彻,所以仅根据 A/B-test显著性检验 讲一讲转化率类型的假设检验。
一、伯努利分布
一次实验,两种结果,就是伯努利试验。
抛一次硬币,结果为正面为事件A,则P(A)的期望和方差分别为1/2,1/4,即p和p(1-p)
二、二项式分布
重复n此的伯努利试验,就是二项式分布,重点是独立同分布,没什么好说的。
抛n次硬币,结果为正面的次数为事件A,则P(A)的期望和方差分别为np和np(1-p)。n=1时就是伯努利分布。
三、n值很大时的二项式分布
棣莫弗-拉普拉斯中心极限定理就已经适用了,大意就是n很大时,二项式分布B~(n,p)近似于正态分布Z~(np,np(1-p))
中心极限定理描述的某种分布的随机变量之和的分布,也就是n重伯努利试验出现正面的总数的分布,也就是二项式分布。
想了解更多中心极限定理看这个大数定理与中心极限定理
四、转化率与二项式分布
从A页面到B页面,结果只有两种,要么到要么不到。一个用户到不到B页面即是伯努利试验。假定每个用户到不到B页面是独立同分布的,那么n个用户有多少个到B页面即是二项式分布,当n很大时,近似于正态分布。
n个用户有k个到了B页面,k/n就是转化率。k满足Z~(np,np(1-p)),按照正态分布的特性,k/n也就满足
Z~(np/n,np(1-p)/n^2)=(p,p(1-p)/n)。p也就是每个用户访问B页面的概率,我们可以用样本的k/n也就是转化率作为p的无偏估计
五、假设检验
我们有一个可能会影响转化率的策略S,我们想用假设检验验证S的效果。
那么就将用户随机分为两组(一般都是第一个用户适用A第二个就适用B,依此类推。),对A组用户用策略S,B组保持原样作为对照组。
由于我们要验证的是有策略S的A组是不是比B组好,所以选用单侧假设检验。
H0:PA-PB<=0 H1 PA-PB>0
然后确立显著性水平,一般都是5%,单侧就是1.64倍标准差。
我们已经知道了PA、PB也就是A组、B组的转化率都是满足正态分布的,根据正态分布的性质,
PA-PB也满足正态分布Z~(μ1-μ2,σ1^2+σ2^2)也就是 (p1-p2,p1(1-p1)/n1+p2(1-p2)/n2)。
那么就可以根据两组的样本量n和到达下个页面的数量k,算出p。
然后算PA-PB再标准正态化,得到的值和1.64比较,如果大于1.64,也就是小概率事件发生了拒绝原假设,备择假设为真。
六、置信区间
仅仅给出是否显著的结论,其实也是不恰当的。
最好能加上置信区间。如果一个试验,尽管显著,但方差大,置信区间特别宽,那么试验结果也不是很可信,随机性太大。