美赛python学习d12——机器学习分类算法的性能评价和选择

引入算法评估的意义

用多种机器学习算法解决问题,找出结果最好的算法

正类和负类

正类,也叫阳性,在机器学习中一般代表数据1,
负类,也叫阴性,在机器学习中一般代表数据0
在机器学习中,我们一般将更关注的事件定义为正类事件,我们一般关注的是结果不好的情况
在这里插入图片描述

伪阳性和伪阴性

  1. 伪阳性:实际上没做,预测做了,又叫一型错误
  2. 伪阴性:实际上做了,预测没做,又叫二型错误
    二型错误一般比一型错误更严重,比如染上了传染病检测成没染上

准确率悖论

预测出来的准确率还没有全部预测成1(0)这种极端情况的准确率来得高

累计准确曲线CAP

e.g用模型制定一个产品推销给哪些人的策略,横轴代表推荐的人,纵轴代表推荐成功购买的人,最终只有10%的人购买,最好的模型在一开始就抓住了那10%的人
在这里插入图片描述

回归问题的评估指标

机器学习就是通过优化算法不断减小误差(损失函数)来确定最后得到的函数关系中的未知参数
在这里插入图片描述

1. SSE残差平方和

2. MES均方误差

3. RMSE均方根误差

在这里插入图片描述
在这里插入图片描述

分类问题的评估指标

混淆矩阵

在这里插入图片描述

横轴:实际的分类
纵轴:预测的分类
对角线上的数据个数代表正确的预测个数
在这里插入图片描述
在这里插入图片描述

评估指标

  1. 分类准确率
  2. 查全率
  3. 查准率
    在这里插入图片描述
  4. F1分数
    F1分数是查全率和查准率的调和平均数,越接近于1表示分类效果越好
    在这里插入图片描述
  5. ROC曲线和AUC
    在这里插入图片描述
    重点关注ROC和AUC的用法
    在这里插入图片描述
  6. 模型的泛化能力
    通俗来讲就是模型对未知数据的预测能力,光用前面的指标优秀不能代表模型的预测能力就一定优秀,这个时候后就要把样本分为训练集测试集测试集不参与模型的训练过程,只用来最后对模型的好坏进行测试,这种对泛化能力进行评估的方法叫做留出法
    留出法中训练模型的样本只是所有样本的一部分,测试集也是随机选取的一部分,结果不是很稳定,所以引入了k折交叉验证的方法
    在这里插入图片描述
    注意
    在这里插入图片描述

欠拟合(underfitting)和过拟合(overfitting)

过拟合是指模型在训练集表现得很好,但是测试集很差
欠拟合是指模型在测试集和训练集都表现得不好
在这里插入图片描述

可能产生过拟合的原因

在这里插入图片描述

解决过拟合的方法

在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值