推荐系统实验方法
离线实验
优点:不需要有对实际系统的控制权
不需要用户参与实验
速度快,可以测试大量算法
缺点:无法计算商业上关心的指标
离线实验的指标和商业指标存在差距
不需要用户参与实验
速度快,可以测试大量算法
缺点:无法计算商业上关心的指标
离线实验的指标和商业指标存在差距
用户调查
优点:获得很多体现用户主观感受的指标,相对在线实验风险很低,出现错误后很容易弥补
缺点:招募测试用户代价较大,很难组织大规模的测试用户,因此会使测试结果的统计意义不足
缺点:招募测试用户代价较大,很难组织大规模的测试用户,因此会使测试结果的统计意义不足
设计双盲实验非常困难,而且用户在测试环境下的行为和真实环境下的行为可能有所不同,因而在测试环境下收集的测试指标可能在真实环境下无法重现
在线试验
AB测试是一种很常用的在线评测算法的实验方法。它通过一定的规则将用户随机分成几组,并对不同组的用户采用不同的算法,然后通过统计不同组用户的各种不同的评测指标比较不同算法。
优点:公平获得不同算法实际在线时的性能指标,包括商业上关注的指标
缺点:周期比较长,必须进行长期的实验才能得到可靠的结果
一个大型网站的AB测试系统的设计也是一项复杂的工程
一般来说,一个新的推荐算法最终上线,需要完成上面所说的3个实验:
首先,需要通过离线实验证明它在很多离线指标上优于现有的算法。
然后,需要通过用户调查确定它的用户满意度不低于现有的算法。
最后,通过在线的AB测试确定它在我们关心的指标上优于现有的算法。
参考文献:
缺点:周期比较长,必须进行长期的实验才能得到可靠的结果
首先,需要通过离线实验证明它在很多离线指标上优于现有的算法。
然后,需要通过用户调查确定它的用户满意度不低于现有的算法。
《推荐系统实践》