Keras的模型性能评估函数

最新推荐文章于 2022-10-18 13:47:16 发布

麦格芬230

最新推荐文章于 2022-10-18 13:47:16 发布

阅读量2.8k

点赞数 6

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_42295205/article/details/107487761

版权

自然语言处理专栏收录该内容

34 篇文章

订阅专栏

一、什么是Accuracy准确率

Accuracy（准确率）是机器学习中最简单的一种评价模型好坏的指标，每一个从事机器学习工作的人一定都使用过这个指标。没从事过机器学习的人大都也知道这个指标，比如你去向别人推销一款自己做出来的字符识别软件，人家一定会问你准确率是多少。

二、Keras中的accuracy介绍

（一）accuracy

accuracy(y_true, y_pred)

该accuracy就是大家熟知的最朴素的accuracy。比如我们有6个样本，其真实标签y_true为[0, 1, 3, 3, 4, 2]，但被一个模型预测为了[0, 1, 3, 4, 4, 4]，即y_pred=[0, 1, 3, 4, 4, 4]，那么该模型的accuracy=4/6=66.67%。

（二）binary_accuracy

binary_accuracy(y_true, y_pred, threshold = 0.5)

对二分类问题，计算在所有预测值上的平均正确率。

binary_accuracy和accuracy最大的不同就是，它适用于2分类的情况。可以看到binary_accuracy的计算除了y_true和y_pred外，还有一个threshold参数，该参数默认为0.5。比如有6个样本，其y_true为[0, 0, 0, 1, 1, 0]，y_pred为[0.2, 0.3, 0.6, 0.7, 0.8, 0.1]，那么其binary_accuracy=5/6=87.5%。具体计算方法为：1）将y_pred中的每个预测值和threshold对比，大于threshold的设为1，小于等于threshold的设为0，得到y_pred_new=[0, 0, 1, 1, 1, 0]；2）将y_true和y_pred_new代入到2.1中计算得到最终的binary_accuracy=87.5%。

（三）categorical_accuracy

categorical_accuracy(y_true, y_pred)

对多分类问题，计算在所有预测值上的平均正确率。

categorical_accuracy和accuracy也很像。不同的是accuracy针对的是y_true和y_pred都为具体标签的情况，而categorical_accuracy针对的是y_true为onehot标签，y_pred为向量的情况。比如有4个样本，其y_true为[[0, 0, 1], [0, 1, 0], [0, 1, 0], [1, 0, 0]]，y_pred为[[0.1, 0.6, 0.3], [0.2, 0.7, 0.1], [0.3, 0.6, 0.1], [0.9, 0, 0.1]]，则其categorical_accuracy为75%。具体计算方法为：1）将y_true转为非onehot的形式，即y_true_new=[2, 1, 1, 0]；2）根据y_pred中的每个样本预测的分数得到y_pred_new=[1, 1, 1, 0]；3）将y_true_new和y_pred_new代入到2.1中计算得到最终的categorical_accuracy=75%。

（四）sparse_categorical_accuracy

sparse_categorical_accuracy(y_true, y_pred)

与categorical_accuracy相同，在对稀疏的目标值预测时有用。

和categorical_accuracy功能一样，只是其y_true为非onehot的形式。比如有4个样本，其y_true为[2， 1， 1， 0]，y_pred为[[0.1, 0.6, 0.3], [0.2, 0.7, 0.1], [0.3, 0.6, 0.1], [0.9, 0, 0.1]]，则其categorical_accuracy为75%。具体计算方法为：1）根据y_pred中的每个样本预测的分数得到y_pred_new=[1, 1, 1, 0]；2）将y_true和y_pred_new代入到2.1中计算得到最终的categorical_accuracy=75%。

（五）top_k_categorical_accuracy

top_k_categorical_accuracy(y_true, y_pred, k=5)

计算top-k正确率，当预测值的前k个值中存在目标类别即认为预测正确。

在categorical_accuracy的基础上加上top_k。categorical_accuracy要求样本在真值类别上的预测分数是在所有类别上预测分数的最大值，才算预测对，而top_k_categorical_accuracy只要求样本在真值类别上的预测分数排在其在所有类别上的预测分数的前k名就行。比如有4个样本，其y_true为[[0, 0, 1], [0, 1, 0], [0, 1, 0], [1, 0, 0]]，y_pred为[[0.3, 0.6, 0.1], [0.5, 0.4, 0.1], [0.3, 0.6, 0.1], [0.9, 0, 0.1]]，根据前面知识我们可以计算得到其categorical_accuracy=50%，但是其top_k_categorical_accuracy是多少呢？答案跟k息息相关。如果k大于或等于3，其top_k_categorical_accuracy毫无疑问是100%，因为总共就3个类别。如果k小于3，那就要计算了，比如k=2，那么top_k_categorical_accuracy=75%。具体计算方法为：1）将y_true转为非onehot的形式，即y_true_new=[2, 1, 1, 0]；2）计算y_pred的top_k的label，比如k=2时，y_pred_new = [[0, 1], [0, 1], [0, 1], [0, 2]]；3）根据每个样本的真实标签是否在预测标签的top_k内来统计准确率，上述4个样本为例，2不在[0, 1]内，1在[0, 1]内，1在[0, 1]内，0在[0, 2]内，4个样本总共预测对了3个，因此k=2时top_k_categorical_accuracy=75%。说明一下，Keras中计算top_k_categorical_accuracy时默认的k值为5。

（六）sparse_top_k_categorical_accuracy

sparse_top_k_categorical_accuracy(y_true, y_pred, k=5)

与top_k_categorical_accracy作用相同，但适用于稀疏情况。

和top_k_categorical_accuracy功能一样，只是其y_true为非onehot的形式。比如有4个样本，其y_true为[2， 1， 1， 0]，y_pred为[[0.3, 0.6, 0.1], [0.5, 0.4, 0.1], [0.3, 0.6, 0.1], [0.9, 0, 0.1]]。计算sparse_top_k_categorical_accuracy的步骤如下：1）计算y_pred的top_k的label，比如k=2时，y_pred_new = [[0, 1], [0, 1], [0, 1], [0, 2]]；2）根据每个样本的真实标签是否在预测标签的top_k内来统计准确率，上述4个样本为例，2不在[0, 1]内，1在[0, 1]内，1在[0, 1]内，0在[0, 2]内，4个样本总共预测对了3个，因此k=2时top_k_categorical_accuracy=75%。

三、自定义评估函数

（一）F1-score

# 计算：F1值
def f1_metric(y_true, y_pred):
    '''
    metric from here
    https://stackoverflow.com/questions/43547402/how-to-calculate-f1-macro-in-keras
    '''

    def recall(y_true, y_pred):
        """Recall metric.
        Only computes a batch-wise average of recall.
        Computes the recall, a metric for multi-label classification of
        how many relevant items are selected.
        """
        true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
        possible_positives = K.sum(K.round(K.clip(y_true, 0, 1)))
        recall = true_positives / (possible_positives + K.epsilon())
        return recall

    def precision(y_true, y_pred):
        """Precision metric.
        Only computes a batch-wise average of precision.
        Computes the precision, a metric for multi-label classification of
        how many selected items are relevant.
        """
        true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
        predicted_positives = K.sum(K.round(K.clip(y_pred, 0, 1)))
        precision = true_positives / (predicted_positives + K.epsilon())
        return precision

    precision = precision(y_true, y_pred)
    recall = recall(y_true, y_pred)
    return 2 * ((precision * recall) / (precision + recall + K.epsilon()))

四、总结

综上，keras中的accuracy metric用法很多，大家可以根据自己的实际情况选择合适的accuracy metric。以下是几个比较常见的用法：

（一）当你的标签和预测值都是具体的label index（如y_true=[1, 2, 1], y_pred=[0, 1, 1]）时，用keras.metrics.accuracy。

（二）当你的标签是具体的label index，而prediction是向量形式（如y_true=[1, 2, 1], y_pred=[[0.2, 0.3, 0.5], [0.9, 0.1, 0], [0, 0.4, 0.6]]）时，用keras.metrics.sparse_categorical_accuracy。

（三）当你的标签是onehot形式，而prediction是向量形式（如y_true=[[0, 1, 0], [0, 0, 1], [0, 1, 0]], y_pred=[[0.2, 0.3, 0.5], [0.9, 0.1, 0], [0, 0.4, 0.6]]）时，用keras.metrics.categorical_accuracy。

当然，还有其他更高级的用法，比如对每个类别的accuracy求平均，或者对每个类别的accuracy进行加权，或者对每个样本的accuracy进行加权等，不在本文的讨论范围，大家有兴趣可以去参考Tensorflow或者Keras的官方文档。