新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

在Netflix推荐场景中,传统AB测试受用户分布影响,Interleaving方法通过同时展示两个模型推荐结果,解决了重度用户分布不均的问题,提高了实验效率与准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 我们在线上做实验的时候,常常会用到abtest,来确定线上效果。而我们的abtest方法,往往就是对用户进行分组,对于相同比例的随机用户,进行效果比较。这种方法有个前提/假定,就是各组随机用户的分布是完全一样的。当然,一般情况下(如用户量特别大),这种方法大概率情况是不太有问题的,但是对于某些场景,如Netflix推荐场景,这种方法会有所局限;

2. 在Netflix的推荐场景中,较少部分用户是重度用户,而只要这部分用户在不同组中分布有差别,就会导致对最后abtest结果有较大差别;

3. Netflix工程师提出一种新的abtest方法来解决这个问题——Interleaving,就是将abtest的2种方法同时提供给同一批用户,如A模型的推荐结果是A1~A3,B模型的推荐结果是B1~B3,那么随机从A1-B1-A2-B2-A3-B3和B1-A1-B2-A2-B3-A3中取一组推荐结果给用户,根据在模型A和模型B推荐视频上用户的消费行为来对比效果;

4. Interleaving的优势在于能够在更少的流量上验证效果,且准确性与传统abtest有强相关性;

5. Interleaving的缺点是:
①工程上需要开发;
②只能得出对比的优劣关系,不能获取数据的确定值;
所以Netflix先是用Interleaving筛掉一批表现差的实验,从中选择少量实验再进行传统的abtest(Interleaving+abtest);


参考资料: 
[1] https://medium.com/netflix-techblog/interleaving-in-online-experiments-at-netflix-a04ee392ec55
[2] Netflix推荐系统模型的快速线上评估方法——Interleaving | 雷峰网


以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值