推荐系统的实验方法
主要的实验方法:离线实验(offline experiment)、用户调查(user study)、在线实验(online experiment)
离线实验
步骤:用户数据构建数据集->划分测试集、训练集->训练集训练模型,测试集预测->选择指标评估模型
优点 | 缺点 |
---|---|
不需要对实际系统的控制权 | 无法计算商业上关心的指标(点击率,转化率) |
不需要真实用户参与实验 | 离线实验的指标和商业指标存在差距 |
快速、方便测试大量算法 |
用户调查
方法作用 | 离线实验的指标和商业指标存在差距,且上线测试的风险较大,一般在上线前做一次用户调查 |
---|---|
优点 | 1.获得离线测试不能得到的指标,如客户满意度 2.相对在线实验的风险低,出错后容易弥补 |
缺点 | 成本高,难以组织大规模的测试 |
测试要求:
-
尽量保证测试用户的分布和真实用户分布相同;
如:男女比例、年龄、活跃度的分布
-
尽量保证是双盲实验;
不要让实验人员和用户知道测试目标
在线实验
上线进行AB实验和旧算法比较
AB算法:通过一定的规则将用户随机分成几组,对不同的用户采用不同的算法,统计不同组用户的各种不同的评测指标比较不同算法,例如:点击率的比较;
优点 | 可以公平获得不同算法实际在线时的性能指标 |
---|---|
缺点 | 周期较长(用于测试离线实验和用户调查中表现好的算法) |
AB测试的流程:
新的推荐算法上线的流程:
-
离线实验验证算法有效性
-
用户调查测试满意度
-
AB测试验证相关指标的模型效果