吴恩达Deeplearning.ai 知识点梳理（course 3，week 2）

最新推荐文章于 2024-09-24 17:06:12 发布

asasasaababab

最新推荐文章于 2024-09-24 17:06:12 发布

阅读量794

点赞数

分类专栏：学习笔记文章标签： AI 深度学习

本文链接：https://blog.csdn.net/asasasaababab/article/details/79352976

版权

学习笔记专栏收录该内容

37 篇文章 3 订阅

订阅专栏

本周主要讲的是Error Analysis、Mismatched Training and dev/test set，transfer learning，End to end learning几个话题。

Error Analysis

Carrying out error analysis

在做错误分析的时候，最好是从错误的分类结果里边拿出100个左右的样本，做一个统计，究竟是那些样本导致了问题，这样可以并行的了解问题都出在哪里，然后有针对性的对犯错比较大的地方进行优化。比方说一上来发现很多错误是把狗当成了猫，那么就开始解决狗的图片吗，显然不是。因为没准狗在错误占比里边只有8%。所以数据统计是最重要的，决定了改进的方向。
Evaluate multiple ideas in parallel

Cleaning up Incorrectly labeled data

如果我们在调试的过程中，发现了一些错误标注的samples，我们应该怎么做呢？

首先要做的依旧是Error Analysis。因为它是指明方向的。看一看因为标错导致的错误占整个dev error中的多少。比方说上图的示例，只占了6%，那么就说明有更多的更重要的问题等待解决，而不是这个6%的清洗数据。假如把其他问题改到很好了，那这个时候有可能标错的数据导致的错误率占比达到30%多了，那么就应该洗一洗了。另外其实对于大部分的深度学习框架来说，对于少量的随机错误还是比较Robust的，但是对于系统错误，比方说把所有白色的狗都标记成了猫，这个就没法Robust了。
一旦决定清洗数据了，那么就要有如下几点注意：

如果清洗了dev set，那么test set也要清洗，dev set和test set必须是相同的distribution。这个是会有huge impact的。
建议把algorithm判断对的那些个也做一下检查。不过这个可能更费事。
这个时候training set和dev/test set就有轻微的不同的distribution了。这个问题的处理会在下边解决。

Build your first system quickly, then iterate

对于一个新的machine learning问题来说，一个非常重要的就是不要over think，把必要的问题考虑好了之后，就按照如下的顺序进行尝试：
1. 设置好dev/test set以及metrics。
1. 好target。
2. 尽快建立一个初始的系统：
1. 尽快训练Test Set：Fit Parameters
2. Dev set：tuning Parameters
3. Test set：评估性能
3. 使用Bias/Variance以及Error analysis来对下一步的工作做优先级分配。

Mismatched traning and dev/test set

有时候最终的目标数据可能确实没法收集到特别多。比方说用手机app拍摄的猫，很可能非常不专业，会有模糊等问题。又比如车载语音识别，会有汽车的噪声等等。那么这个时候应该如何处理呢？
Cat Example

Training/dev/test set的分配

假如有200,000张网页上的高清猫图，然后有10,000张app的猫图，一种方法是将所有猫图混起来，然后随机打乱顺序，然后随机分配出来205,000/2500/2500的分配。但是这样不好在于最终目标和dev/test set不match。目标就不对了。另外一种是dev/test set分别有2500张app猫图，剩下的猫图全都放入其他猫图里边作为训练集。
这样做的优劣如下：

优点是Target是well defined。
缺点是Training set和dev/test set分布不一致。
但是从长期看，这样做会有更好地Performance。

Bias and Variance with mismatched data distributions

由于分布不一样，所以对于data mismatch导致的错误是无法衡量的，所以这里会引入一个Training-Dev set，它的分布和Training set是一样的，这样就可以把Variance的衡量和data mismatch的衡量分开了。

A是什么结论也得不出来，因为Variance和Data Mismatch揉在一起。
B的Variance比较大。
C的Data Mismatch比较大。
D的Avoidable Bias比较大。
E的Avoidable Bias比较大，同时Data mismatch也比较大。
一方面有一些Avoidable Bias，同时也有一些Variance，但是可能最终目标的数据的分布比较简单，所以在最终结果上显得比较好。

下图是总体流程和评估错误的方法。

Data Mismatch 的处理

&mesp;现在基本上没有什么特别系统的方法能够处理Data Mismatch的问题，所以一般性的指南是：

人工理解一下究竟Training和Dev/test set之间究竟有什么差别。Development绝对不能在Test set上做，否则就会给Test set带来overfitting。
可以使用data synthesis来对training data进行处理使其像dev/test set，或者收集一些像dev/test set的数据集。但是这种方法可能会导致test data落到一个很小的数据子集中。一个例子是对于那个汽车语音识别的问题，我们采集1小时的汽车噪声，跟10,000小时的干净语料混合，人耳听上去很好，但是神经网络很可能overfit到这1小时的汽车噪声上。不过收集10,000小时的噪声也比较困难。目前很多使用data synthesis的系统很多都有很大的性能提升。

下面是两个data synthesis的例子，一个是语音+噪声，一个是使用计算机图形学来模拟汽车。
语音合成

图像合成

Learning From multiple tasks

Transfer learning

&mesp;Transfer Learning是指用一个application的neural network的知识用在另一个application上，例如识别猫的用来识别X光片上的肿瘤。

具体做法就是保留所有前级的神经网络，将最后的几级，或者1级，或者新添加几级，在保留前级网络的同时，训练最后几级或者新添加的几级。

什么时候transfer learning是能起作用的呢？

Task A和Task B的输入是一样的。比方说都是图像或者都是语音。
Task A的数据比Task B多好多。
两个Task可以共享Low Level Features。

Multi-Task Learning

Multi-task Learning就是用一个神经网络来做多个任务。比方说用一个神经网络识别图中是否有汽车，行人，路标以及红绿灯。

什么时候使用呢？

在一系列任务上训练，可以因为他们share相同的low level features而获利。
一般来说，每一个任务的data数量都差不多。例如每一个都有1000个数据集。
可以训练一个很大的神经网络，让所有的task都做得很好。通常来说，假如multi-task比Seperate task做的差，那只能是神经网络不够大。

multi-Task label是什么样子的？

End to end learning

以前做机器学习的时候，总是人自己提取特征。但是其实这个并不是一个最好的方法。比方说为了识别语音cat，分别识别c a t三个音节，这个是人自己的认知（preperception），对于机器并不一定是最优的。
End to end learning

但是对于小数据量来说，确实手动提取特征会好一些。所以是否使用End to end learning，其实主要是看有没有相应的xy pair，以及是否有大量的数据可供机器找到这个mapping。

End to end learning的特点总结如下：

好处：

让数据说话，这样就让机器去发现统计规律，而不是把人类的preperception强加给机器。
不用加很多hand-designing feature，这样就简单好多。

坏处：

需要大量的data：不一定每一个问题都能有对应的大量的数据。
可能把一些潜在的有价值的hand-designed feature给丢掉了。数据和hand-designed feature是两个最主要的知识来源。如果数据集比较小，小于hand-designed system，那么使用人工的feature会更有意义。

applying end to end deep learning

上图中有几个例子，一个是从一张图里边找到一个人脸，这个数据会比较多。而第二个例子是从一个X光片里看一个人的年龄，这个从直觉上会复杂一些，至少得找不少数据才行。而更复杂的例子是，从一张图片里边直接给出自动驾驶的汽车的方向盘应该怎么打。这个就极其复杂了。所以这种自动驾驶问题，更多的是从画面里找出行人、汽车等，然后根据这些，再来进行motion planning，最后得到一个该怎么打轮的问题。