参考资料
- 《百面机器学习》
为什么进行A/B测试
-
离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法完全代替线上评估结果;
-
离线评估无法完全还原线上的工程环境。离线评估往往不会考虑线上环境的延迟、数据丢失、标签数据丢失等情况;
-
线上系统的某些商业指标在离线评估中无法计算。例如,上线新的推荐算法,离线评估往往关注的是ROC曲线,P-R曲线等的改进,而线上评估可以全面了解该推荐算法带来的用户点击率、留存时长、PV访问量等的变化。
如何进行A/B测试
主要手段是进行用户分桶,即将用户分成实验组和对照组。对实验组的用户施以新模型,对对照组施以旧模型。
在分桶的过程中,要注意样本的独立性和采样方式的无偏性。