网易云课堂-吴恩达机器学习-学习归纳-8-机器学习系统的设计

Andrew Dang

于 2019-10-10 21:19:15 发布

阅读量218

点赞数 1

分类专栏：吴恩达机器学习课程文章标签：机器学习系统的设计

本文链接：https://blog.csdn.net/weixin_42049250/article/details/102490111

版权

一、首先要做什么

要敢想，敢于尝试各种方法
以一个垃圾邮件分类器算法为例进行讨论。
为了解决这样一个问题，我们首先要做的决定是如何选择并表达特征向量 $x$ 。我们可以选择一个由100个最常出现在垃圾邮件中的词所构成的列表，根据这些词是否有在邮件中出现，来获得我们的特征向量（出现为1，不出现为0），尺寸为100×1。
为了构建这个分类器算法，我们可以做很多事，例如：
1. 收集更多的数据，让我们有更多的垃圾邮件和非垃圾邮件的样本
2. 基于邮件的路由信息开发一系列复杂的特征
3. 基于邮件的正文信息开发一系列复杂的特征，包括考虑截词的处理
4. 为探测刻意的拼写错误（把watch 写成w4tch）开发复杂的算法

在上面这些选项中，非常难决定应该在哪一项上花费时间和精力，作出明智的选择，但是这样总比随着感觉走要好。

二、误差分析

如果你准备研究机器学习的东西，或者构造机器学习应用程序，最好的实践方法不是建立一个非常复杂的系统，拥有多么复杂的变量，而是构建一个简单的算法，这样你可以很快地实现它，即便效果不好，但是也要把它运行一遍，最后通过交叉验证来检验数据。一旦做完，你可以画出学习曲线，通过画出学习曲线，以及检验误差，来找出你的算法是否有高偏差和高方差的问题，或者别的问题。在这样分析之后，再来决定用更多的数据训练，或者加入更多的特征变量是否有用。

这么做的原因是：这在你刚接触机器学习问题时是一个很好的方法，你并不能提前知道你是否需要复杂的特征变量，或者你是否需要更多的数据，还是别的什么。提前知道你应该做什么，是非常难的，因为你缺少证据，缺少学习曲线。因此，你很难知道你应该把时间花在什么地方来提高算法的表现。但是当你实践一个非常简单即便不完美的方法时，你可以通过画出学习曲线来做出进一步的选择。你可以用这种方式来避免一种电脑编程里的过早优化问题，这种理念是：我们必须用证据来领导我们的决策，怎样分配自己的时间来优化算法，而不是仅仅凭直觉，凭直觉得出的东西一般总是错误的。除了画出学习曲线之外，一件非常有用的事就是误差分析。

当我们在构造垃圾邮件分类器时，要看一看交叉验证数据集，然后再看一看哪些邮件被算法错误地分类。因此，通过这些被算法错误分类

最低0.47元/天解锁文章

Andrew Dang

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
网易云课堂-吴恩达机器学习-学习归纳-8-机器学习系统的设计

一、首先要做什么要敢想，敢于尝试各种方法以一个垃圾邮件分类器算法为例进行讨论。为了解决这样一个问题，我们首先要做的决定是如何选择并表达特征向量 xxx。我们可以选择一个由100个最常出现在垃圾邮件中的词所构成的列表，根据这些词是否有在邮件中出现，来获得我们的特征向量（出现为1，不出现为0），尺寸为100×1。为了构建这个分类器算法，我们可以做很多事，例如：1. 收集更多的数据，让我们有更...
复制链接

扫一扫