如果那个类型不重要,只关心他的准确率
那么可以考虑使用准确率
如果不是那么考虑以下的指标。
混淆矩阵
上面这些怎么记呢? 预测对错+预测结果。
比如True Positive 就是预测对了,预测为正。很符合西方人的思维,先说结果再说原因。而中国人呢,就是先说原因,再说结果。
查全率recall:实际为正的样本里面预测为正的比例
查准率preision:预测为正的样本里面实际为正的比例
那么什么情况下会用上面两个指标呢?
查全率,比较关心这个正样本有没有全查出来。
查准率,比较关心这个预测的正样本准不准。
说人话就是。假如某人去医院看病,然后被查出来癌症晚期,然后他现在关心这个机器的查准率。如果查准率为零,那就意味着这个预测的正样本根本不准。他就很开心。而医院呢就比较关心,查全率。因为正样本没有被检查出来的话,谁会来这个看病,对不对,这个手术没有人做,药也没有人吃,医院都没有收入了。所以医院会比较关心正样本有没有全查出来。
F1:就是precision和recall的调和平均值,更接近precision和recall中较小的一个。这个就是属于两手抓两手都要硬的。政府可能会比较关心这个。
F1倒数的两倍等于precision的倒数加上recall的倒数