《美团机器学习实践》学习笔记：机器学习中的模型评价指标（一）——分类模型评估

最新推荐文章于 2022-12-27 15:00:37 发布

另一个我竟然存在

最新推荐文章于 2022-12-27 15:00:37 发布

阅读量496

点赞数

分类专栏：机器学习机器学习理论及应用

本文链接：https://blog.csdn.net/qq_24034545/article/details/86679872

版权

本文介绍了机器学习中用于分类模型评估的重要指标，包括对数损失函数（Log Loss）、混淆矩阵及其衍生出的accuracy、precision、recall、F1-score、Kappa指数。此外，还深入探讨了PRC曲线、F1-score和ROC曲线，特别是AUC值的意义和计算方法，帮助理解模型的性能表现。

摘要由CSDN通过智能技术生成

对数损失函数（log loss）：分类问题的输出结果是每个类别的概率，log-loss的输出的概率就表示其所属的类别的置信度。

对于二分类问题，log loss的计算公式为：

$logloss=-\frac{1}{N}\sum_{i=1}^N y_i\log p_i+(1-y_i)log(1-p_i)$

其中N代表样本数量， y_i 代表第i个样本的真实值（0或1）， p_i 代表第i个样本为1的概率。

对于多分类问题，log loss的计算公式为：

$logloss=-\frac{1}{N}\cdot \frac{1}{C}\sum^{N}_{i=1}\sum^{C}_{j=1}y_{ij}\cdot \log p_{ij}$

其中N代表样本数量，C为类别数量， $y_{ij}$ 代表第i个样本的真实类别为第j个类别（值为0或1）， $p_{ij}$ 代表第i个样本被判别为第j个类别的概率。

log loss是对额外噪声的度量，这个噪声是由于预测值与实际值不同而产生的。最小化logloss（或称作交叉熵）便是最大化分类器的准确率。

混淆矩阵：对分类结果进行详细描述的表，对于二分类问题，矩阵是一个2*2的，对于多分类问题，矩阵是n*n的。在二分类问题中，分类结果分为4种，即positive-positive（TP），positive-negative（FN），negative-positive（FP），negative-negative（TN）。根据混淆矩阵可以衍生出多个评价指标，即accuracy（准确度），precision（精确度），recall（召回率），F1-score。

	predicted as positive	predicted as negative
labeled as positive	True Positive(TP)	False Negative(FN)
labeled as negative	False Positive(FP)	True Negative(TP)