二分类
分类问题中会出现多种算法,那么自己如何知道算法性能的优劣呢,这就需要评价算法性能好坏的指标,这里介绍几个常用的指标.
1.准确率
评价分类问题的性能的指标一般是分类准确率,其定义是对于给定的数据,分类正确的样本数占总样本数的比例。Accuracy = 预测正确的样本数 / 所有样本数。但是这一指标在不均衡的数据上表现很差。比如说我的样本有990个正样本,10个负样本,我直接把所有样本都预测为正,我的准确率为99%,居然有这么高得准确率,但我的分类方法实际是非常不具有说服力的。
2.精准率和召回率
对于二分类问题常用的评价指标是精确率和召回率。通常以关注的类为正类,其他类为负类,分类器在数据集上的预测或者正确或者不正确,我们有4中情况,在混淆矩阵中表示如下:
精准率 :Precision=TP / (TP+FP),即在所有被预测为正的测试数据中,真正是正的比率。
召回率 :Recall=TP / (TP+FN),即在所有实际为正的测试数据中,真正是正的比率。
为了综合这两个指标并得出量化结果, 又发明了 F1Score 。
F1Score = 2*(Precision * Recall) / (Precision + Recall)
显然上面三个值都是越大越好,但往往在实际当