机器学习中常用的性能指标

最新推荐文章于 2024-03-18 15:14:52 发布

江左梅郎丶

最新推荐文章于 2024-03-18 15:14:52 发布

阅读量739

点赞数

文章标签：机器学习聚类算法

本文链接：https://blog.csdn.net/qq952805824/article/details/117845059

版权

本文介绍了机器学习中衡量模型性能的常用指标，包括混淆矩阵的四个基本元素：真正例(TP)、假正例(FP)、假负例(FN)和真负例(TN)。接着详细阐述了准确率(Accuracy)、纯度(Purity)和F-score的定义及计算方法。准确率关注所有预测正确的比例，纯度衡量类别划分的纯净度，而F-score结合了精度和召回率，是评价模型综合性能的重要指标。

摘要由CSDN通过智能技术生成

机器学习中常用的性能指标

前言

衡量一个机器学习算法的优劣有许多指标可以参考，对于不同任务的不同算法需要采用不同的指标进行衡量而不能一概而论。

混淆矩阵

在这里插入图片描述
TP：真实类别为positive，模型预测的类别也为positive
FP：预测为positive，但真实类别为negative，真实类别和预测类别不一致
FN：预测为negative，但真实类别为positive，真实类别和预测类别不一致
TN：真实类别为negative，模型预测的类别也为negative

指标详细定义

常用的指标主要有准确率(Accuracy, ACC)，纯度(Purity)和F-score。

ACC，

ACC的定义如下：
$\text{ACC} = \frac{\sum_{i=1}^n \delta(l_i, map(r_i))}{n}~.$

其中， $R$ 是聚类结果 $r_i$ 的集合， $L$ 是真实标签 $l_i$ 的集合，当 $r_i=l_i$ 时， $\delta(r_i, l_i)=1$ ，否则 $\delta(r_i, l_i)=0$ 。 $map(r_i)$ 是最佳映射函数，使用KuhnMunkres算法来置换聚类标签以匹配真实的标签。

纯度(Purity)

纯度(Purity)的定义为：
$\text{Purity}(R,L) = \frac{1}{n} \sum_k \max_j \left | r_k \cup l_j\right | .$
上式表示将每个簇中的多数类作最终的划分结果，计算出分配正确的类的个数，再除以 $n$ 得到纯度。

F-score

F-score的定义为：
$\text{F}\text{-score} = 2\times \frac{\text{Pre} \times \text{Rec}}{\text{Pre}+\text{Rec}}~.$

精度 $\text{Pre}=\frac{\text{TP}}{\text{TP}+\text{FP}}$ 且召回值 $\text{Rec}=\frac{\text{TP}}{\text{TP}+\text{FN}}$ ， $\text{TP}$ 是真正类， $\text{FP}$ 是假正类， $\text{FN}$ 是假负类。