Task1.赛题理解
机器学习性能评估指标
分类算法常见评估指标:
- 准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN)
- 精确率(precision) = TP/(TP+FP)
- 召回率(recall) = TP/(TP+FN) = TP/P = Sensitivity
- F1-score = 2*(precision * recall)/(precision + recall)
- AUC:全称是Area under the Curve of ROC,也就是ROC曲线下方的面积。
这里出现了另一个概念,就是ROC曲线。那么ROC曲线是个什么东西呢?
我们参看下维基百科上的定义:在信号检测理论中,接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)是一种坐标图式的分析工具,用于
选择最佳的信号侦测模型、舍弃次佳的模型。
在同一模型中设定最佳阈值。这个概念最早是由二战中的电子工程师和雷达工程师发明的,用来侦测战场上的敌军载具。概括来说,可以把ROC曲线理解为一种用于统计分析的图表工具。
回归算法常见评估指标
- 平均绝对误差(Mean Absolute Error)
- 均方误差(Mean Squared Error,MSE)
- 平均绝对百分误差(Mean Absolute Percentage Error,MAPE)
- 均方根误差(Root Mean Squared Error)
- R2 :拟合优度(Goodness of Fit)
越接近1,表明回归平方和展总平方和的比例越大,回归线与各观测点越接近。