前言
“没有测量,就没有科学。” ——门捷列夫
1、评估指标的局限性
奢侈品广告投放问题,训练奢侈品用户数据模型,准确率高,但非奢用户仍被投广告
问题1 准确率的局限性。难度:★☆☆☆☆
解答:
准确率(Accuracy):分类正确的样本占总样本个数的比例
缺点:当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。
改进:平均准确率(每个类别下的样本准确率的算术平均)
模糊搜索排序返回top5精确率高,但用户找不到想要的视频(尤其一些冷门剧集)
问题2 精确率与召回率的权衡。难度:★☆☆☆☆
解答:
精确率(Precision):分类正确的正样本个数占分类器判定为正样本的样本个数的比例。
召回率(Recall):分类正确的正样本个数占真正的正样本个数的比例。
综合指标:
P-R曲线Precision-Recall):横轴是召回率,纵轴是精确率。
F1 score:精准率和召回率的调和平均值F1 = 2×p×r / (p+r)
ROC曲线
预测某部美剧的流量趋势,但结果RMSE都非常高,在95%的时间区间内预测误差小于1%
问题3 RMSE指标居高不下的原因是什么?平方根误差的“意外”。难度:★☆☆☆☆
解答:
均