在机器学习常用性能指标及sklearn中的模型评估一文中已对相对宏观的模型评价指标进行了描述,并给出了在sklearn中具体的实现方法,主要包括准确率、精确率、召回率,ROC曲线,那在策略产品工作中,如何进行业务函数的评估?
1. 评估前的样本切分
与机器学习模型评估步骤相同,将样本数据切分为训练集、验证集和测试集。
2. 常见的模型评估指标
2.1 基于二分类问题的混淆矩阵定义的指标
包括准确率、精确率P、召回率R,同时考虑业务对Precision与Recall指标的侧重性,常用F1值即精确率P与召回率R的调和平均数。
2.2 ROC曲线和AUC
横坐标为假正率,纵坐标为真正率的曲线称为ROC曲线,用曲线下方的面积AUC对模型本身做出评估。
AUC=1,分类模型的完美状态,基本不存在;
0.5<AUC<1,得分越高则模型越有效,但越接近1时要考虑过拟合问题。
2.3 Lift曲线和K - S曲线
该部分是一些与业务指标联系更为密切的指标。
Lift曲线描述不同分类阈值下模型的精确率与先验精确率的比值,衡量的是一个模型对目标中“响应”的预测能力优于随机选择的倍数;来自模型和策略效果衡量常用指标——LIFT提升度
K - S主要用来验证模型的区分能力,实际上就是把分类阈值作为横坐标,TPR和FPR值同时作为纵坐标,真正率和假正率的差值越大则模型能够尽可能多的正确区分正负样本。
2.4 MAE、MSE和RMSE
对于回归问题,常使用平均绝对误差、均方误差及均方根误差来评估预测的结果与真实结果之间的差异。
2.5 MAP和nDCG
对于搜索、推荐等业务场景需要额外关心返回结果的排序,对排序结果的评估通常使用MAP和nDCG来衡量。
参考1:https://zhuanlan.zhihu.com/p/274563041
参考2:https://www.jianshu.com/p/ff0eb70d31ec
参考3:《策略产品经理——模型与方法论》