回归
RMSE(Root Mean Square Error)均方根误差
衡量观测值与真实值之间的偏差。常用来作为机器学习模型预测结果衡量的标准。如果存在个别偏离程度非常大的离群点( Outlier)时,即使离群点数量非常少,也会让RMSE指标变得很差。
MSE(Mean Square Error)均方误差
通过平方的形式便于求导,所以常被用作线性回归的损失函数。
L2 loss对异常敏感,用了MSE为代价函数的模型因为要最小化这个异常值带来的误差,就会尽量贴近异常值,也就是对outliers(异常值)赋予更大的权重。这样就会影响总体的模型效果。
MAE(Mean Absolute Error)平均绝对误差
是绝对误差的平均值。可以更好地反映预测值误差的实际情况。
相比MSE来说,MAE在数据里有不利于预测结果异常值的情况下鲁棒性更好。
SD(Standard Deviation)标准差
方差的算术平均根。用于衡量一组数值的离散程度。
R2(R- Square)拟合优度
R2=SSR/SST=1-SSE/SST
其中:SST=SSR+SSE,
SST(total sum of squares)为总离差平方和,
SSR(regression sum of squares)为回归平方和,
SSE(error sum of squares) 为残差平方和,
其中
表示
的平均值得到
表达式为:
因变量的变异能通过回归关系被由自変量解释的比例取值范国是0~1,R越近1表明回归平方和占总平方和的比例越大回归线与各观则点越接近,回归的拟合程度就越好。所以R也称为拟合优度( Goodness of Fit)的统计量
Error = Bias + Variance
Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。
分类
对数损失不适用于样本不均衡时的分类评估指标
ROC-AUC可作为样本正负不均衡时的分类评估指标
如果我们想让少数情况被正确预测,就用ROC-AUC作为评估指标
F1- Score和PR曲线在正样本极少时适用于作为分类评估指标
F1- Score和PR曲线在FP比FN更重要时,适用于作为分类评估指标
第一个字母T或F,代表这个分类结果是否正确,第二个字母P或N,代表分类器认为是正例还是负例。
1.准确率(accuracy)
所有预测正确的样本/总的样本 = (TP+TN)/总
from sklearn.metrics import accuracy
accuracy