引入
使用机器学习方法对指标做预估,再对预估分数做融合。融合方法:加权和方法给不同指标赋予不同的权重,权重是做A/B test调试得到的。还有更好地融合方法。
多目标模型
排序模型的输入是各种各样的特征,用户特征主要是用户id和用户画像,物品特征包括物品Id、物品画像和作者信息,统计特征包括用户统计特征和物品统计特征:候选物品多少次曝光、点击、点赞等,用户曝光了多少篇笔记、点赞了多少等,场景特征有时间地点。
神经网络输出一个向量,向量再输入到四个神经网络,每个神经网络有二到三个全连接层,最后一个激活函数是sigmoid,四个神经网络分别输出点击率等四个指标,为实数,介于0到1之间。
推荐系统的排序依靠点击率等这四个预估值,可以反映出用户对物品的兴趣。
模型的训练
鼓励预测接近目标,目标Y的值非0即1。
也就是有四个二元分类任务,使用交叉熵损失函数,加权和为总的损失函数,权重是根据经验给定。
困难:负样本过多,远大于正样本
预估值校准:
使用模型得到p_pred,再利用校准公式得到最终的p_true。