吴恩达机器学习笔记（十）——机器学习系统设计

最新推荐文章于 2024-06-26 11:06:10 发布

George&Rita

最新推荐文章于 2024-06-26 11:06:10 发布

阅读量471

点赞数 2

分类专栏：吴恩达机器学习笔记文章标签：机器学习人工智能算法吴恩达

本文链接：https://blog.csdn.net/weixin_41799019/article/details/118072262

版权

吴恩达机器学习笔记专栏收录该内容

26 篇文章 33 订阅

订阅专栏

本文探讨了误差分析在机器学习中的重要性，介绍了如何通过Precision和Recall解决偏斜类问题，以及如何平衡查准率与查全率，特别是通过F1值评估模型性能。此外，文章还涉及如何通过增加数据量优化模型并降低偏差和方差。

摘要由CSDN通过智能技术生成

1.误差分析

当我们在开发一个机器学习系统的时候，我们通常不会立即建造出一个十分复杂的系统。相反，我们通常会优先构建一个简单的系统，然后分析这个系统有哪些方面可以进行改进，从而不断优化这个系统。

此外，我们还应该认识到对于误差定量分析的重要性，我们对误差确定一个量化的指标，然后在交叉验证集中计算每种模型的误差，这样就很方便我们选择模型。

2.不对称分类的误差评估

在本小节中，我们接着前面提到的判断病人是否得了癌症的例子。当我们的训练集中只有0.5%的人得了癌症，剩下的人都没有患病，就有可能造成计算误差失效的情况，如下图所示：
在这里插入图片描述
上图中的这个程序十分简单，ignore x，然后直接返回y=0（不患病），这个程序的误差率就会十分的小，因为实际患病的人也就才0.5%。

因此，对于上面这种情况，我们把正样本数量和负样本数量相差特别大的情况，称为偏斜类。

因此对于这种失效的情况，我们引入了两个新的指标：Precision（查准率）和Recall（查全率）。具体定义如下图所示：
在这里插入图片描述
对于上图，我们需要了解清楚以下几个方面：

首先左边的2*2的表格，代表预测值和实际值的关系。True positive（正确预测阳性）、True negative（正确预测阴性）、Fasle positive（假阳性）、False negative（假阴性）。
Precision（查准率）：正确预测阳性的（True positive）/预测为阳性的。其实这个概念就相当于前面提到的预测准确率
Recall（查全率）：正确预测阳性的（True positive）/实际为阳性的。这个概念就相当于实际阳性中正确预测阳性的比重。
通过查准率和召回率这两个指标，我们就可以有效避免偏斜类造成的误差失效情况。
当查准率和召回率都比较高的时候，我们就可以称这个算法的性能是比较好的。

3.查准率和查全率的平衡

对于大多数回归模型来说，我们都需要对查准率和查全率进行平衡，因此它们经常会呈现一个此消彼长的趋势，如下图所示：
在这里插入图片描述
因此，我们通常的做法就是根据不同的实际情况确定不同的阈值，来平衡查准率和查全率，我们想要哪个更好。

查准率和查全率的变化关系通常会如下图所示，但也可能会呈现其他图形：

因此我们会想到用一个指标来表示查准率和查全率的平衡，我们可能会想到用均值的方法，但是这很明显不是一个好方法。按照下图，我们会选择算法3，这是因为他拥有十分高的查全率造成的。
在这里插入图片描述
因此，我们通常会利用一个叫F值（或叫F1值）的方法来进行评估。可以看到这个方法，如果查准率和查全率有一个趋近于0，那么整个式子就会等于0.如果查准率和查全率都趋近于1，那么表达式就会等于1。这个特点符合我们想要的方法，因此我们通常会利用这个来进行评估。
在这里插入图片描述