吴恩达深度学习第三章第二周——机器学习策略（2）

最新推荐文章于 2024-06-24 16:20:40 发布

倚剑笑紅尘

最新推荐文章于 2024-06-24 16:20:40 发布

阅读量532

点赞数

分类专栏：机器学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_36782366/article/details/89216744

版权

机器学习同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

机器学习

29 篇文章 1 订阅

订阅专栏

一、进行误差分析

以猫分类器为例，假设我们的模型表现的还不错，但是依旧存在误差，预测后错误标记的数据中有一部分狗图片被错误的标记成了猫。我们不能盲目的直接去训练狗的分类器，以能更好的区分猫和狗。

我们首先需要去对错误的样本进行分析，假如错误分类的100个样本中，只有5个狗样本被错误的标记成了猫，那么经过你的完善，你的模型能够区分猫和狗，你的效率也只是提高了5%。所以对误差进行分析就显得比较重要，而且可以帮助我们在未来的工作中指明优化方向，节省时间。具体的方法可以进行人工的对错误标记的样本进行再处理、分析。

下面以一个例子来介绍一下操作步骤

1.人工标记
将错误标记样本以表格的形式列举出来，然后人工的标记处样本的分类，最后统计出各种分类(或者说错误标记的原因)所占比例。

Image	Dog	Great cats(大型猫科动物，如狮子)	Blurry(图片模糊)	Comments
1	√
2		√		眯着眼
3		√	√	在动物园，且下着雨
……
% of total	8%	43%	61%

注意:上面的分类并不是互相独立的，只是举个例子。

2.分析误差
又上面的结果可以知道，误差样本中只有8%是狗狗的图片，而43%是大型猫科动物，61%是因为图片模糊。很显然此时你即使用毕生所学去优化区别狗和猫的算法，整个模型的准确率提升的空间也远不如后两个特征高。所以如果人手够的话，也是可以选择几个特征进行优化的。

二、清楚标注错误的数据

机器预测可能会出错，那么人当然也有可能会出错。所以如果训练集和验证集中认为添加的标签Y出现误差该怎么处理呢？

这里分两种情况：

1.随机误差

这种情况比较好，因为如果人为误差比较接近随机误差，那么可以选择性的进行忽略，因为深度学习算法对于随机误差还是有一定的健壮性的。

2.非随机误差

Image	Dog	Great cats(大型猫科动物，如狮子)	Blurry(图片模糊)	Incorrectly labeled	Comments
1	√
2		√		√	只是一只手画的的猫，不是真的猫
3				√	背景的角落里有一只猫
……
% of total	8%	43%	61%	6%

什么时候我需要修正这6%标记错误的样本？举个例子：

假设我们有如下数据：

总体验证集误差：10%
由人工错误标记引起的错误样本比例： 0.6%
由其他原因引起的错误样本比例：10%-0.6%=9.4&

当其他原因引起的错误样本比例远远高于人工误差的时候，从效率角度考虑，我们可以优先处理其他原因导致的误差，显然他的受益会更高。

假如你通过优化算法，减少了因其他原因引起的误差，并且使得总体验证集误差降到了2%，此时我们再分析一下：

很显然，因为并没有对人工误差进行优化，所以由人工错误标记引起的错误样本比例依旧是0.6%,那么人工误差在总误差中所占的比例则达到了0.6%/2%=30%,相比于之前的6%影响力变大，所以此时则应该考虑对人工误差动手了。

三、快速搭建第一个系统，并进行迭代

步骤流程：

1.建立训练集，验证集，测试集
2.迅速搭建初始化系统
3.使用前面提到的Bias/Variance分析和误差分析来确定接下来的优化方向

因为我们的目的是做出一个系统，所以我们可以先初步快速的做出一个简单的系统，然后逐步的分析修改完善。

四、在不同的划分上进行训练并测试

这个和之前的划分略有区别，之前的划分比如测试多个国家的数据，我们会把多个国家的数据打乱然后进行分配。

但这边的话，就比如说我们要识别手机拍的猫的照片，但是这类照片像素很低并且数据很少，而我们手上只有大量高清的从网上找来的用相机拍的猫的照片。

那么我们的目的是为了识别手机拍的照片，且数据量要少。所以我们在分配的时候将高清的照片全部作为训练集去训练，手机拍的照片可以拿出一半作为训练集，其他作为开发和测试集，也可以把所有手机拍的照片作为开发和测试集。

五、不匹配数据划分的偏差和方差

对上面的PPT截图进行解释：

左边

首先还是以喵咪分类器作为例子，假设人类的误差接近贝叶斯误差0%。而训练集误差和开发集误差分别为1%和10%，二者相差9%，而且如果两个数据集来自同一个分布，那么我们就可以说模型训练结果方差较大。
但是当两个数据集来自不同的分布时，我们就不能得出上面的结论了。另外，这9%的方差可能有两个原因导致的，一是我们自己实现的代码有问题，二是数据分布不同，所以你很难确定哪个是更主要的原因。因此为了改变找出是哪个原因我们做如下的事情：

创建Training-dev set(训练-开发集)，其实就是从原来的训练集中抽取一部分数据出来，但是不喂给模型。（如上图所示）

右边

那怎么操作呢？很简单，下面以几个例子来说明：

1.因为Training-dev set(训练-开发集)和Training set同分布，所以假设训练出来的结果如下：