引入算法评估的意义
用多种机器学习算法解决问题,找出结果最好的算法
正类和负类
正类,也叫阳性,在机器学习中一般代表数据1,
负类,也叫阴性,在机器学习中一般代表数据0
在机器学习中,我们一般将更关注的事件定义为正类事件,我们一般关注的是结果不好的情况
伪阳性和伪阴性
- 伪阳性:实际上没做,预测做了,又叫一型错误
- 伪阴性:实际上做了,预测没做,又叫二型错误
二型错误一般比一型错误更严重,比如染上了传染病检测成没染上
准确率悖论
预测出来的准确率还没有全部预测成1(0)这种极端情况的准确率来得高
累计准确曲线CAP
e.g用模型制定一个产品推销给哪些人的策略,横轴代表推荐的人,纵轴代表推荐成功购买的人,最终只有10%的人购买,最好的模型在一开始就抓住了那10%的人
回归问题的评估指标
机器学习就是通过优化算法不断减小误差(损失函数)来确定最后得到的函数关系中的未知参数
1. SSE残差平方和
2. MES均方误差
3. RMSE均方根误差
分类问题的评估指标
混淆矩阵
横轴:实际的分类
纵轴:预测的分类
对角线上的数据个数代表正确的预测个数
评估指标
- 分类准确率
- 查全率
- 查准率
- F1分数
F1分数是查全率和查准率的调和平均数,越接近于1表示分类效果越好
- ROC曲线和AUC
重点关注ROC和AUC的用法
- 模型的泛化能力
通俗来讲就是模型对未知数据的预测能力,光用前面的指标优秀不能代表模型的预测能力就一定优秀,这个时候后就要把样本分为训练集和测试集,测试集不参与模型的训练过程,只用来最后对模型的好坏进行测试,这种对泛化能力进行评估的方法叫做留出法
留出法中训练模型的样本只是所有样本的一部分,测试集也是随机选取的一部分,结果不是很稳定,所以引入了k折交叉验证的方法
注意
欠拟合(underfitting)和过拟合(overfitting)
过拟合是指模型在训练集表现得很好,但是测试集很差
欠拟合是指模型在测试集和训练集都表现得不好