分类与预测模型算法评价

最新推荐文章于 2024-03-01 17:03:24 发布

安吉尼尔

最新推荐文章于 2024-03-01 17:03:24 发布

阅读量3.2k

点赞数

分类专栏：机器学习文章标签：算法

本文链接：https://blog.csdn.net/qq_31385713/article/details/114796172

版权

机器学习专栏收录该内容

5 篇文章 6 订阅

订阅专栏

使用分类算法或者预测算法进行模型建立，往往是通过训练集来调整模型的参数，在准确率比较大的时候，认为模型是合理的，然而如果只是使用测试的数据，而没有一组实际没有参与过的预测模型的数据集，很难对预测的模型效果进行比较。因此需要通过实际的测试集来评价模型的效果，这里有很多的评价指标，仅作为梳理衡量。
1.绝对误差和相对误差
绝对误差与相对误差是最实际直观的展现方式
绝对误差：即实际值与预测值的差的结果
相对误差：即实际值与预测值差占实际值的比例
绝对误差的公式可写成（其中Y为实际值，为预测值）：
在这里插入图片描述
相对误差的公式可写成：

2.平均绝对误差
平均绝对误差（MAE，Mean Absolute Error)为实际值与预测值的做差，并取平均值的结果
公式可写成：

平均绝对误差取绝对值考虑的场景：避免差值正负抵消，并可以进行平均
3.均方误差
均方误差（MSE，Mean Squared Error),是取实际值与预测值差的平方的均值
公式可写成：
在这里插入图片描述

均方误差与平均绝对误差具有一定的类似使用目的，用于避免差值正负抵消的情况。重要用于还原平方是真程度，平方的方式加大了数值大的误差权重，提高了指标的灵敏度
4.均方根误差
均方根误差（RMSE，Root Mean Squared Error)是均方误差的平方根
公式可写成：
在这里插入图片描述

均方误差用于分析误差的离散程度，最佳的拟合结果是RMSE=0，其值越小越好
5.平均绝对百分误差
平均绝对百分误差（MAPE，Mean Absolute Percentage Error)可以理解为平均绝对误差的一种变形，需要和实际值作比较再取平均值
公式可写成：
在这里插入图片描述

一般认为MAPE 小于10时，认为预测精度较高
6.Kappa统计
Kappa统计用于比较两个或两个以上的观测者对同一事物或观测者对同一事物的多次观测结果是否一致，是因为机遇造成的结果一致还是实际确实是一致的，以它们之间一致性的差别大小作为评价指标。
Kappa统计量可用于有序和无序的分类结果，验证变量资料的一致性，其取值的结果和一致性的结果可理解为:
当Kappa值趋近于1：说明两次判断的结果越一致
当Kappa值趋近于-1：说明两次判断的结果越不一致
当Kappa值取值为0：说明两次判断的结果是随机的
一般Kappa值至少要达到0.4，0.75就可以认为取得良好的一致程度
7.识别准确度
识别准确度（Accuracy）用于判断预测为正确的占有总分类数目的比例，即实际预测对的比例
具体的计算公式为：
在这里插入图片描述

上述的四个指标TP，TN，FP，FN的实际含义为：

	P（实际）	N（实际）
P（预测）	TP（True Positive):预测值和实际值都为是，都一致的分类数	FP（False Nagetive):预测值为是而实际值为否的分类数目
N（预测）	FN（False Nagetive):预测值为否，而实际值为是，不一致的分类数	TN（True Nagetive):预测值为否而实际值为否的分类数目

8.识别精确率于反馈率
识别精确率（Precision）用于识别预测为是的占有所有预测为是的比例
反馈率（Recall）用于识别预测为否的占有所有预测为否的比例
识别精确率的计算公式为：
在这里插入图片描述
反馈率的计算公式为：

9.ROC曲线
ROC（Reciver Operating Characteristic）曲线名为受试者工作特性曲线，该曲线的纵坐标为灵敏度（Sensitivity），横坐标为1-特异性（Specificity）。曲线下的面积大小显示了模型的优劣程度，反映分类器的统计概率，其值越趋近于1，模型的算法效果越好。
如下图所示（图片来源网络）：
在这里插入图片描述

10.混淆矩阵
混淆矩阵用矩阵或表格的形式，展现实际值与预测值之间的关系，类似TP，TN，FP，FN的表格展现形式，对于一个二分类的混淆矩阵，可表示为下表，其中表格内ABCD分别表示预测和实际的分类个数，A表示实际为第一类，预测分配给第一类的个数；B表示实际为第０类，但预测分配给第一类的个数，以此类推：
在这里插入图片描述