每天五分钟机器学习:通过误差分析和数值评估提高算法模型的效果

本文重点

本节课程将学习误差分析还有数值评估的概念,他们能够帮助我们优化机器学习模型。

误差分析

我们使用垃圾邮件分类来举例,当我们构建好一个垃圾邮件分类模型之后,我们应该看一看交叉验证集(不是在测试集)中哪些邮件被算法错误地分类。这些错误分类的邮件有没有什么共同的特点,然后我们是否可以通过增加新的特征变量来解决这个问题呢?

比如说在交叉验证集中有5000个样本,其中有1000个样本被错误分类了,我们统计发现这1000个样本中有680封和钓鱼网站有关,140封和商品购物有关,那么我们可以认为当前算法模型对钓鱼网站的分类效果很差(关于钓鱼网站的样本被误分的最多),所以我们可以构建关于钓鱼网站的特征变量来解决这个问题,让算法模型能够更好的处理关于钓鱼网站的邮件。

数值评估

我们可以通过在交叉验证集上看被分类错误的样本,以此来改善样本特征,解决问题。但是解决之后,如何以一种直观的方式判断模型效果变好了,或者有些时候我们需要尝试多种模型,如何判断哪种模型的好坏呢?

模型是否变好了,哪种模型最好,我们应该以一种数值的方式来进行评价,这种数值可以是验证集的误差,误差越小说明模型效果越好

以垃圾邮件分类为例,如果不使用关于钓鱼网站的特征,此时在验证集上错误率为6%,而使用关于钓鱼网站的特征,此时在验证集上错误率为3%,不使用是6%的错误率,使用是3%的错误率,所以基本可以说明的一点使用的效果会更好。

在构造学习算法的时候,我们可能会尝试很多的想法,我们通过这样的量化的数值评估的方式,我们可以来看这个误差是变

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幻风_huanfeng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值