机器学习模型评价指标大概有
1、回归的:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、Coefficient of determination (决定系数R2)、 MAPE(平均绝对百分误差)、MSLE(均方根对数误差)等。
2、分类的:混淆矩阵、精确率、召回率、准确率、F1值、ROC-AUC 、PRC、G-MEAN等。
3、聚类的:兰德指数、互信息、轮廓系数等。
本篇主要记录回归模型的评估指标,为什么先写回归?因为上个项目使用了回归模型,就近。在学习python,算法等技能的过程中,站在前辈们的肩膀上明白了很多知识的应用。待时间如丝线缓缓,攒起幸福的模样,学习是个积累的过程,接下来我会慢慢的整理出笔记本里的要点及部分项目 (习惯本地保存文件)。若有不正之处,尽请指教。
目录
Mean absolute error MAE(平均绝对误差)
Root Mean squared error RMSE(均方根误差)
Mean squared logarithmic error MSLE(均方根对数误差)
Mean Absolute Percentage Error MAPE(平均绝对百分误差)
R-square(决定系数) Coefficient of determination
Median absolute error(中位数绝对误差)
explained_variance_score(解释方差分)
变量解释:Y 真实值,Ypredict 预测值,Ymean 目标数据均值, n 样本数 ,p 特征数
以下为一元变量和二元变量的线性回归示意图:
首先了解下回归分析3种误差
SSR(回归平方和) The sum of squares for regression ,是估计值与平均值的误差
SSR=
SSE(误差平方和) The sum of squares for error ,估计值与真实值的误差,随着样本增加,SSE必然增加,也就是说,不同的数据集的情况下,SSE比较没有意义,所以需要有前提条件。同样的数据集的情况下,SSE越小,误差越小,模型效果越好。
SSE=
SST(总离差平方和) The sum of squares for total ,平均值与真实值的误差,它反映了与数学期望的偏离程度,样本分散程度
SSR=
回归问题衡量的是预测出Y对于真实Y的差距。通过差距辅助判断预测结果的准确性。预测值和真实值2组数据,利用均值之差进行统计推断,背后的原理 ,是方差分析的思想。绝对误差指标衡量了一组数据 与 另外一组数据的均值 差的绝对值 之和,我们南方妹子平均身高165cm(可能还稍低一些,捂脸),另外一组175cm 左右样本,差值之和,不用算,根据之前的经验,结果显而易见,她们就是一组小仙女和一组高仙女,不一样不一样。
1评估指标
-
绝对误差与相对误差
绝对误差= Y - Ypredict
相对误差
绝对误差是从极差发展而来的。极差是最大值-最小值,最初用极差来评价一组数据的离散度。因为由两个数据来评判一组数据是不科学的,所以从极差进行改进,改用绝对误差之和。
(1)为避免出现绝对误差总和为零,所以对绝对误差 求绝对值,求平方。
(2)而为避免指标受样本含量的影响,所以除以样本数,求平均值。
-
Mean absolute error MAE(平均绝对误差)
平均绝对误差(Mean Absolute Error,MAE),又称为L1范数损失。用于评估预测结果和真实数据集的接近程度,其值越小说明拟合效果越好。可以更好地反映预测值误差的实际情况。
MAE= ∑ |Y - Ypredict|
优