机器学习之模型评估与优化

欠拟合和过拟合

产生原因:模型不合适导致其无法对数据实现有效的预测。

模型对数据的预测情况:

训练数据 预测数据
欠拟合 不准确 不准确
过拟合 准确 不准确
好模型 准确 准确

欠拟合可以通过观察训练数据及时发现,通过优化模型结果解决

过拟合产生原因

  • 模型结构过于复杂(维度过高)
  • 使用了过多属性,模型训练时包含了干扰信息

解决办法:

  • 简化模型结构(使用低阶模型,比如线性模型)
  • 数据预处理,保留主成分信息(数据PCA处理)
  • 在模型训练时,增加正则化项(regularization)

增加正则化项

在这里插入图片描述
在这里插入图片描述

数据分离与混淆矩阵

建立模型的意义,不在于对训练数据做出准确预测,更在于对新数据的准确预测

模型训练与评估流程

数据载入    —>    数据可视化与预处理    —>    模型创建    —>    数据用于模型训练    —>    模型评估

分类任务中,计算测试数据集预测准确率(accuracy)以评估模型表现。训练数据集准确率随着模型复杂而提高,测试数据集准确率在模型过于简单或过于复杂的情况时下降。但无法真实反映模型针对各个分类的预测准确度。准确率可以方便的用于衡量模型的整体预测效果,但无法反应细节信息,具体表现在:

  • 没有体现数据预测的实际分布情况(0、1本身的分布比例)
  • 没有体现模型错误预测的类型

混淆矩阵

混淆矩阵(Confusion Matrix),又称为误差矩阵,用于衡量分类算法的准确程度
在这里插入图片描述
通过混淆矩阵,计算更丰富的模型评估指标

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值