美赛python学习d12——机器学习分类算法的性能评价和选择

林生时见lu

已于 2022-02-11 12:24:38 修改

阅读量1.4k

点赞数

分类专栏：数模美赛文章标签：机器学习 python 分类

于 2022-02-02 21:12:18 首次发布

本文链接：https://blog.csdn.net/qq_51059141/article/details/122769692

版权

16 篇文章 13 订阅

订阅专栏

引入算法评估的意义

用多种机器学习算法解决问题，找出结果最好的算法

正类，也叫阳性，在机器学习中一般代表数据1,
负类，也叫阴性，在机器学习中一般代表数据0
在机器学习中，我们一般将更关注的事件定义为正类事件，我们一般关注的是结果不好的情况
在这里插入图片描述

预测出来的准确率还没有全部预测成1（0）这种极端情况的准确率来得高

e.g用模型制定一个产品推销给哪些人的策略，横轴代表推荐的人，纵轴代表推荐成功购买的人，最终只有10%的人购买，最好的模型在一开始就抓住了那10%的人
在这里插入图片描述

机器学习就是通过优化算法不断减小误差（损失函数）来确定最后得到的函数关系中的未知参数
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

横轴：实际的分类
纵轴：预测的分类
对角线上的数据个数代表正确的预测个数
在这里插入图片描述

分类准确率
查全率
查准率
F1分数
F1分数是查全率和查准率的调和平均数，越接近于1表示分类效果越好
ROC曲线和AUC

重点关注ROC和AUC的用法
模型的泛化能力
通俗来讲就是模型对未知数据的预测能力，光用前面的指标优秀不能代表模型的预测能力就一定优秀，这个时候后就要把样本分为训练集和测试集，测试集不参与模型的训练过程，只用来最后对模型的好坏进行测试，这种对泛化能力进行评估的方法叫做留出法
留出法中训练模型的样本只是所有样本的一部分，测试集也是随机选取的一部分，结果不是很稳定，所以引入了k折交叉验证的方法

注意

过拟合是指模型在训练集表现得很好，但是测试集很差
欠拟合是指模型在测试集和训练集都表现得不好
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

关注