对数损失函数(log loss):分类问题的输出结果是每个类别的概率,log-loss的输出的概率就表示其所属的类别的置信度。
对于二分类问题,log loss的计算公式为:
其中N代表样本数量,代表第i个样本的真实值(0或1),代表第i个样本为1的概率。
对于多分类问题,log loss的计算公式为:
其中N代表样本数量,C为类别数量,代表第i个样本的真实类别为第j个类别(值为0或1),代表第i个样本被判别为第j个类别的概率。
log loss是对额外噪声的度量,这个噪声是由于预测值与实际值不同而产生的。最小化logloss(或称作交叉熵)便是最大化分类器的准确率。
混淆矩阵:对分类结果进行详细描述的表,对于二分类问题,矩阵是一个2*2的,对于多分类问题,矩阵是n*n的。在二分类问题中,分类结果分为4种,即positive-positive(TP),positive-negative(FN),negative-positive(FP),negative-negative(TN)。根据混淆矩阵可以衍生出多个评价指标,即accuracy(准确度),precision(精确度),recall(召回率),F1-score。
predicted as positive | predicted as negative | |
labeled as positive | True Positive(TP) | False Negative(FN) |
labeled as negative | False Positive(FP) | True Negative(TP) |
accuracy(正确率):表示在所有样本中,正样本被判