【含课程pdf & 测验答案】吴恩达-机器学习公开课学习笔记 Week6-2 Machine Learning System Design_machine learning system design interview pdf-CSDN博客

吴恩达-机器学习公开课学习笔记 Week6-2 Machine Learning System Design

6-2 Machine Learning System Design 课程内容
课程链接
课件

6-2 Machine Learning System Design 课程内容

此文为Week6 中Machine Learning System Design的部分。

6-2-1 Building a Spam Classifier

Prioritizing What to Work On

建立一个垃圾邮件分类器：
在这里插入图片描述
在实际工作中，最普遍的做法是遍历整个训练集，然后在训练集中选出出现次数最多的n个单词，n一般介于10,000和50,000之间。然后把这些单词作为你要用的特征。

如果你正在构造一个垃圾邮件分类器，你应该会面对这样一个问题：那就是你最该去使用哪一改进你的方法，从而使得你的垃圾邮件分类器具有较高的准确度？

收集大量的数据
用更复杂的特征变量，像是邮件的路径信息、邮件的标题部分、故意的拼写错误…
误差分析

Error Analysis

准备研究机器学习的东西或者构造机器学习应用程序：

构建一个简单的算法，很快地实现它。运行一遍，最后通过交叉验证来检验数据。
画出学习曲线以及检验误差，来找出你的算法是否有高偏差和高方差的问题或者别的问题。
误差分析：一种手动检测的过程，检测算法可能会犯的错误。

最后，在构造机器学习算法时，另一个有用的小窍门是保证你能有一种数值计算的方式来评估你的机器学习算法。它基本上非常直观地告诉你，你的想法是提高了算法表现，还是让它变得更坏。这会大大提高你实践算法时的速度。所以我强烈推荐在交叉验证集上来实施误差分析而不是在测试集上。
在这里插入图片描述

6-2-2 Handling Skewed Data

Error Metrics for Skewed Classes

偏斜类：正例和负例的比率非常接近于一个极端。
在这里插入图片描述
当我们遇到这样一个偏斜类时，我们希望有一个不同的误差度量值，或者不同的评估度量值。其中一种评估度量值叫做查准率（precision）和召回率（recall）。

查准率越高就越好，说明对于这类病人我们对预测他们得了癌症有很高的准确率。同样地，召回率越高越好。