吴恩达机器学习笔记(十)——机器学习系统设计

本文探讨了误差分析在机器学习中的重要性,介绍了如何通过Precision和Recall解决偏斜类问题,以及如何平衡查准率与查全率,特别是通过F1值评估模型性能。此外,文章还涉及如何通过增加数据量优化模型并降低偏差和方差。
摘要由CSDN通过智能技术生成

1.误差分析

当我们在开发一个机器学习系统的时候,我们通常不会立即建造出一个十分复杂的系统。相反,我们通常会优先构建一个简单的系统,然后分析这个系统有哪些方面可以进行改进,从而不断优化这个系统。

此外,我们还应该认识到对于误差定量分析的重要性,我们对误差确定一个量化的指标,然后在交叉验证集中计算每种模型的误差,这样就很方便我们选择模型。

2.不对称分类的误差评估

在本小节中,我们接着前面提到的判断病人是否得了癌症的例子。当我们的训练集中只有0.5%的人得了癌症,剩下的人都没有患病,就有可能造成计算误差失效的情况,如下图所示:
在这里插入图片描述
上图中的这个程序十分简单,ignore x,然后直接返回y=0(不患病),这个程序的误差率就会十分的小,因为实际患病的人也就才0.5%。

因此,对于上面这种情况,我们把正样本数量和负样本数量相差特别大的情况,称为偏斜类。

因此对于这种失效的情况,我们引入了两个新的指标:Precision(查准率)和Recall(查全率)。具体定义如下图所示:
在这里插入图片描述
对于上图,我们需要了解清楚以下几个方面:

  1. 首先左边的2*2的表格,代表预测值和实际值的关系。True positive(正确预测阳性)、True negative(正确预测阴性)、Fasle positive(假阳性)、False negative(假阴性)。
  2. Precision(查准率):正确预测阳性的(True positive)/预测为阳性的。其实这个概念就相当于前面提到的预测准确率
  3. Recall(查全率):正确预测阳性的(True positive)/实际为阳性的。这个概念就相当于实际阳性中正确预测阳性的比重。
  4. 通过查准率和召回率这两个指标,我们就可以有效避免偏斜类造成的误差失效情况。
  5. 当查准率和召回率都比较高的时候,我们就可以称这个算法的性能是比较好的。

3.查准率和查全率的平衡

对于大多数回归模型来说,我们都需要对查准率和查全率进行平衡,因此它们经常会呈现一个此消彼长的趋势,如下图所示:
在这里插入图片描述
因此,我们通常的做法就是根据不同的实际情况确定不同的阈值,来平衡查准率和查全率,我们想要哪个更好。
在这里插入图片描述
查准率和查全率的变化关系通常会如下图所示,但也可能会呈现其他图形:
在这里插入图片描述

因此我们会想到用一个指标来表示查准率和查全率的平衡,我们可能会想到用均值的方法,但是这很明显不是一个好方法。按照下图,我们会选择算法3,这是因为他拥有十分高的查全率造成的。
在这里插入图片描述
因此,我们通常会利用一个叫F值(或叫F1值)的方法来进行评估。可以看到这个方法,如果查准率和查全率有一个趋近于0,那么整个式子就会等于0.如果查准率和查全率都趋近于1,那么表达式就会等于1。这个特点符合我们想要的方法,因此我们通常会利用这个来进行评估。
在这里插入图片描述

4.机器学习数据

在一些情况下,增大数据量是可以帮助我们改善模型的拟合程度的。
我们希望模型具有较小的偏差和方差。我们会尽可能拥有许多特征,从而得到一个较低偏差的算法,并且通过使用大量数据,从而进一步得到一个低方差的模型,最终得到一个Jtrain(θ)≈Jcv(θ)的模型。

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值