机器学习系统的设计(Machine Learning System Design)

首先要做什么

  以一个垃圾邮件分类器算法为例进行讨论
  1. 收集更多的数据,让我们有更多的垃圾邮件和非垃圾邮件的样本
  2. 基于邮件的路由信息开发一系列复杂的特征
  3. 基于邮件的正文信息开发一系列复杂的特征,包括考虑截词的处理
  4. 为探测刻意的拼写错误(把watch写成w4tch)开发复杂的算法

以“头脑风暴”的形式想出更多的解决方法

误差分析(error analysis)

先拥有解决方法的算法,再测试数据,完善算法。构造一个学习算法的推荐方法为:

  1. 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法
  2. 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择
  3. 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势

以我们的垃圾邮件过滤器为例,误差分析要做的既是检验交叉集中我们的算法产生错误预测的所有邮件,看是否能将这些邮件按照类分组。看分类器对哪一组邮件的预测误差最大,并着手优化。误差分析并不总能帮助我们判断应该采取怎样的行动。有时我们需要尝试不同的模型,然后进行比较,在模型比较时,用数值来判断哪一个模型更好更有效,通常我们是看交叉验证集的误差。
总结一下,当你在研究一个新机器学习问题时,推荐你实现一个较为简单快速、即便不是那么完美的算法。当你有了初始的实现之后,它会变成一个非常有力的工具,来帮助你决定下一步的做法。通过误差分析,来看看他犯了什么错,然后来决定优化的方式。

类偏斜的误差度量

算法预测结果

查准率和查全率之间的权衡

预测
在这里插入图片描述

机器学习的数据

数据例子
说明

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值