【吴恩达机器学习笔记】第十一章机器学习系统的设计

最新推荐文章于 2021-05-25 14:39:35 发布

Jermiane

最新推荐文章于 2021-05-25 14:39:35 发布

阅读量489

点赞数 1

分类专栏：个人笔记文章标签：吴恩达机器学习

本文链接：https://blog.csdn.net/qq_36645271/article/details/94575100

版权

本文探讨了机器学习系统设计的关键点，包括邮件分类器的特征选择、误差分析方法及其重要性，以及如何处理类偏斜的误差度量。通过案例介绍了查准率、召回率的概念，强调在查准率和召回率间权衡的重要性。同时，讨论了大数据在机器学习中的作用，指出大数据配合低偏差算法可以防止过拟合，提高学习算法性能。

摘要由CSDN通过智能技术生成

搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多人工智能、机器学习干货

csdn：https://blog.csdn.net/qq_36645271

github：https://github.com/aimi-cn/AILearners

第十一章机器学习系统的设计

11.1 确定执行的优先级

11.1.1 邮件分类的例子

我们以一个垃圾邮件分类器算法为例进行讨论。为了应用监督学习，我们首先要做的决定是如何选择并表达特征向量 $x$ 。通过向量特征 $x$ 和分类标签 $y$ ，我们就能训练一个分类器。我们可以选择一个由100个最常出现在垃圾邮件中的词所构成的列表，根据这些词是否有在邮件中出现，来获得我们的特征向量（出现为1，不出现为0），维度为100。

比如说，如果一封邮件的片段包含单词deal,buy,discount，它可能是一封垃圾邮件，如果包含andrew,now,可能不是垃圾邮件。我们可以找到100个这样的单词。

现在，我们将一封邮件中的所有句子拆分成单词并排序，编码成一个特征向量。我们将第一一个特征向量 $x$ ，如果邮件中出现词表中的单词，对应特征为1，若没有出现，对应为0。
在这里插入图片描述
这样我们就可以用特征向量来表示这封文件。虽然我们只选择了100个单词来举例，但在实际中，我们会从训练集中挑出出现频率最多的n个单词，n一般介于10000到50000之间。

11.1.2 制作一个垃圾邮件分类器

假设我们正在制作一个垃圾邮件分类器，我们可以参考一下方法来降低错误率：

收集更多的数据
基于邮件的路由信息使用更复杂的特征变量来描述邮件。
关注邮件正文，并构建更复杂的特征。比如单词discount和discounts是否应该被视为同一个词、大小写问题，标点符号的使用等。
设计一些更加复杂的算法，来检测单词中故意出现的拼写错误，例如m0rtgage,med1cine,w4tches等。

11.2 误差分析

11.2.1 推荐方法

当我们准备从事研发机器学习产品或者开发机器学习应用时，通常来说，构建一个学习算法的推荐方法为：

通过一个简单的算法来快速的实现它，然后通过交叉验证来测试数据
然后画出相应的学习曲线以及检验误差，来找出你的算法是否存在高偏差或高方差的问题，之后再来决定是否使用更多的数据或特征等。
误差分析(error analysis)：例如在实现一个垃圾邮件分类器的时候，要观察交叉验证集的情况，看一下被算法错误分类的文件。通过查看这些被错误分类的文件，可以找出其蕴含的规律，这样就会启发你如何去设计新的特征，并指导你改进算法。

11.2.2 误差分析

假设我们的邮件分类系统中有500个交叉验证集，我们的算法错误分类了100个。这时我们就应该手动检查这100个数据并基于以下情况对其分类：

这是哪种类型的邮件，例如卖假药的邮件，卖假货的邮件，钓鱼邮件，其他类型的邮件。
观察有什么线索或是额外特征能够帮助算法识别这种邮件。

通过手工检查，确定哪种类型的邮件被错误分类的最多，那么就要对症下药，更改算法。因此，**误差分析(error analysis)**是一种手动的去检查算法出现的错误的过程，通过这种方法，我们可以更高效的实现算法。

总的来说，通过一个简单粗暴的算法实现，你可以很快找到算法的不足所在和难以处理的样本类型，然后把经精力中在它们身上。

11.2.3 数值估计(numerical evaluation)的重要性

当你改进学习算法时，如果我们的算法能够返回一个数值评价指标来估计算法执行的效果，将会很有帮助。结果可能有对有错，但数字可以告诉我们学习算法的效果有多好。

例如当我们在做邮件分类使，是否要将discount,discounts,discounted,discounting作为一个词。这时我们就需要用到词干提取工具，这个工具会专注于单词的前几个字母，如discou，并把带有这几个字母的单词当成一个单词来处理。但词干提取工具是一把双刃剑，例如它会把universe和university当成一个词。

这时，我们可以通过数值估计的方法来判断进行词干提取到底是不是一个好主意。最简单的，我们可以通过交叉验证，在使用和不使用词干提取时各自的错误率来估计算法的效果。对于这个特定的问题，这个单一规则的数值评价指标就叫做交叉验证错误率。

通过一个单一规则的数值评价指标，你可以观察误差率是变大了还是变小了，你可以通过它更快的实践新的想法，它能直接告诉你你的想法能提高还是降低学习算法的表现。推荐在交叉验证集上来做误差分析而不是在测试集上。

11.3 类偏斜的误差度量

11.3.1 癌症分类的例子

跟之前一样，我们假设 $y = 1$ 表示患者患有癌症， $y = 0$ 表示他们没有癌症。假设我们用测试集检验了训练的逻辑回归模型，并且发现它只有1%的错误，因此我们99%会做出正确诊断。

这看起来跟不错，但是，假如我们发现在测试集中只有0.5%的患者真正得了癌症，因此，在我们的筛选程序里，只有0.5%的患者患了癌症。因此，在这个例子中1%的错误率就显得没有那么好了。举一个具体的例子：
在这里插入图片描述
上述代码不是机器学习代码，它忽略了输入值 $x$ ，并且总让 $y = 0$ ，因此它总是预测每人得癌症。那么这个算法实际上只有0.5%的错误率，这甚至比我们之前用机器学习算法得到的1%的错误率更好。上述情况发生在正样本的数量与负样本的数量相比非常非常少的情况下，我们把这种情况叫做偏斜类(skewed classes)。