分类与预测模型算法评价

使用分类算法或者预测算法进行模型建立,往往是通过训练集来调整模型的参数,在准确率比较大的时候,认为模型是合理的,然而如果只是使用测试的数据,而没有一组实际没有参与过的预测模型的数据集,很难对预测的模型效果进行比较。因此需要通过实际的测试集来评价模型的效果,这里有很多的评价指标,仅作为梳理衡量。
1.绝对误差和相对误差
绝对误差与相对误差是最实际直观的展现方式
绝对误差:即实际值与预测值的差的结果
相对误差:即实际值与预测值差占实际值的比例
绝对误差的公式可写成(其中Y为实际值,为预测值):
在这里插入图片描述
相对误差的公式可写成:
在这里插入图片描述
2.平均绝对误差
平均绝对误差(MAE,Mean Absolute Error)为实际值与预测值的做差,并取平均值的结果
公式可写成:
在这里插入图片描述

平均绝对误差取绝对值考虑的场景:避免差值正负抵消,并可以进行平均
3.均方误差
均方误差(MSE,Mean Squared Error),是取实际值与预测值差的平方的均值
公式可写成:
在这里插入图片描述

均方误差与平均绝对误差具有一定的类似使用目的,用于避免差值正负抵消的情况。重要用于还原平方是真程度,平方的方式加大了数值大的误差权重,提高了指标的灵敏度
4.均方根误差
均方根误差(RMSE,Root Mean Squared Error)是均方误差的平方根
公式可写成:
在这里插入图片描述

均方误差用于分析误差的离散程度,最佳的拟合结果是RMSE=0,其值越小越好
5.平均绝对百分误差
平均绝对百分误差(MAPE,Mean Absolute Percentage Error)可以理解为平均绝对误差的一种变形,需要和实际值作比较再取平均值
公式可写成:
在这里插入图片描述

一般认为MAPE 小于10时,认为预测精度较高
6.Kappa统计
Kappa统计用于比较两个或两个以上的观测者对同一事物或观测者对同一事物的多次观测结果是否一致,是因为机遇造成的结果一致还是实际确实是一致的,以它们之间一致性的差别大小作为评价指标。
Kappa统计量可用于有序和无序的分类结果,验证变量资料的一致性,其取值的结果和一致性的结果可理解为:
当Kappa值趋近于1:说明两次判断的结果越一致
当Kappa值趋近于-1:说明两次判断的结果越不一致
当Kappa值取值为0:说明两次判断的结果是随机的
一般Kappa值至少要达到0.4,0.75就可以认为取得良好的一致程度
7.识别准确度
识别准确度(Accuracy)用于判断预测为正确的占有总分类数目的比例,即实际预测对的比例
具体的计算公式为:
在这里插入图片描述

上述的四个指标TP,TN,FP,FN的实际含义为:

P(实际)N(实际)
P(预测)TP(True Positive):预测值和实际值都为是,都一致的分类数FP(False Nagetive):预测值为是而实际值为否的分类数目
N(预测)FN(False Nagetive):预测值为否,而实际值为是,不一致的分类数TN(True Nagetive):预测值为否而实际值为否的分类数目

8.识别精确率于反馈率
识别精确率(Precision)用于识别预测为是的占有所有预测为是的比例
反馈率(Recall)用于识别预测为否的占有所有预测为否的比例
识别精确率的计算公式为:
在这里插入图片描述
反馈率的计算公式为:
在这里插入图片描述

9.ROC曲线
ROC(Reciver Operating Characteristic)曲线名为受试者工作特性曲线,该曲线的纵坐标为灵敏度(Sensitivity),横坐标为1-特异性(Specificity)。曲线下的面积大小显示了模型的优劣程度,反映分类器的统计概率,其值越趋近于1,模型的算法效果越好。
如下图所示(图片来源网络):
在这里插入图片描述

10.混淆矩阵
混淆矩阵用矩阵或表格的形式,展现实际值与预测值之间的关系,类似TP,TN,FP,FN的表格展现形式,对于一个二分类的混淆矩阵,可表示为下表,其中表格内ABCD分别表示预测和实际的分类个数,A表示实际为第一类,预测分配给第一类的个数;B表示实际为第0类,但预测分配给第一类的个数,以此类推:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值