本文重点
从本文开始我们将学习准确率这个评价指标,准确率是所有评价指标中最简单的评价指标了。比如我们上学的时候,我们做选择题,一共10道,我们做对了7道,那么我们可以认为准确率为70%。
准确率的定义
准确率是指分类正确的样本占总样本个数的比例,用公式表示就是:
准确率所存在的问题
比如现在有一个数据集中有100个样本,其中99个样本类别为1,而1个严格不能类别为0,那么我们直接构建一个分类器,这个分类器可以将所有样本都预测为类别为1,那么此时分类器的准确率就是99%,这个准确率够高了,但是此时的分类器却是死的,因为它对任何样本的结果都预测类别为1。
通过这个例子可以说明,当数据存在不均衡问题的时候,准确率就不能发挥效果了。我们可以通过平均准确率和F1值来解决。
其中F1值会在之后的课程中进行详细的介绍,本文将介绍平均准确率。
平均准确率
平均准确率就是按照类别划分的准确率。比如上面的例子中有两个类别,分别是类别0和类别1。现在类别1的准确率为100%,而类别0的准确率为0%,那么我们此时计算一下平均,此时的平均准确率为50%,那么此时50%就是一个非常低的数值了,通过这个指标评价模型还是比较客观的。