Cousera - Deep Learning - 课程笔记 - Week 9

最新推荐文章于 2024-10-11 17:20:12 发布

支锦铭

最新推荐文章于 2024-10-11 17:20:12 发布

阅读量154

点赞数

分类专栏： Cousera-课程笔记文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/cary_leo/article/details/105722173

版权

Cousera-课程笔记专栏收录该内容

141 篇文章 17 订阅

订阅专栏

2018年9月版本

Week 9

错误分析 Error Analysis

手动检查算法中的错误，来明确问题的根本并据此设计下一步的改进计划
分析方法：获得一组错标样本，作为FN和FP来看待，计算不同类别的错标数，并尝试从中得到新的错标类别，以评估优化的优先级以及下一步的具体策略
性能上限（Perform Ceiling）：尝试解决某一问题能够得到的最大性能提升
平行地评估多个思路：通过同时评估，得出不同的思路所能带来的性能优化（准确率可以提升的百分比），选择能够带来最大改进的意向作为下一步的优化思路
错误标签样例：在数据集中，某一样例的标签实际上是错误的（ground truth是错的）
对训练集，如果出现了随机错误样例（被标错的样本是随机出现的），深度学习算法对这类错误有很大的鲁棒性，因此没有比较对其中的错误标签进行处理
但是，学习算法对系统误差没有足够的鲁棒性（被恶意地标了很多错误数据）
对开发集和测试集，在错误分析时，加入一个“错误标签”类别进行分析。根据错误分析的结果决定是否对错误标签进行处理
清理开发集和测试集中的错误标签：
- 对两个数据集采用同样的处理步骤，确保他们仍然服从相同的分布
- 既检查被分错的样例，也检查被“分对”的样例
- 训练集和开发/测试集数据可能有轻微的分布的不同
构建系统实践：
- 快速简历开发集/测试集以及相应的度量指标，这样能够尽快确定目标
- 快速建立一个初步的系统
- 使用偏差/方差分析以及错误分析以区分后续几步工作的优先级
快速建立一个系统，并不断迭代

错配的训练集与开发/测试集 Mismatched Training & Dev/Test Set

通常情况下，往往会出现训练集和测试集的数据分布不一致的情况
假设目标数据集占整个数据集的很小一部分，随机混合并不明知，因为开发集中会有绝大多数的非目标数据，使得评估性能时无法命中目标
正确思路：开发集和测试集都是目标数据，训练集对目标数据可有可无（这样会出现训练集与开发集分布不一致的问题）
不一定要使用所有的数据
如果训练集误差和开发集误差相差过大，且存在数据分布不一致的问题，单纯认为方差过大往往并不明智。此时存在两个变量，其一是算法看到的数据只有训练集而没有开发集，其二是数据分布不同，令人很难判定究竟导致误差相差过大的原因
上述问题的解决方法：创建一个新的数据集“训练-开发集（Train-Dev Set）”，具有和训练集相同的分布，但是并不用于训练。
- 对训练集，随机混淆，取其中一小块作为训练-开发集
- 训练-开发集和训练集数据分布相同
- 使用其余的训练集部分对模型进行训练，训练-开发集、开发集以及测试集用于网络调优
- 如果训练集误差较小，训练-开发集误差和开发集误差基本相同，那么这个模型存在高方差的问题
- 如果训练集和训练-开发集误差都比较小，但是在开发集出现了误差跃升，那么问题就是数据错配
- 类似地，如果三个误差基本相同但都与最优误差（人类误差）相差过大，那么是高偏差问题
- 如果三者都很大，同时开发集误差明显大于前二者，那么这个模型即存在高偏差问题，同时又存在数据错配的问题
性能的评定与误差的关系
- 训练集误差与人类水平误差的差距：可避免偏差
- 训练-开发集误差与训练集误差的差距：方差
- 训练-开发集误差与开发集误差的差距：数据错配
- 测试集误差与开发集误差的差距：开发集过拟合
上面的几类误差往往是按顺序不严格增长的，但是有可能会出现在训练数据上（训练集，训练-开发集）的误差表现要差于在测试数据上（开发集，测试集）的表现（后者更容易学习）

对于误差的差距的发现，有这样一个分析方法

错误类型	高质量的数据	不同质量的目标数据
人类级别	“人类级别误差”	人类水平在目标数据上的表现
用于训练的样例错误	“训练集误差”	取目标数据用于训练的情境下的表现
为用于训练的样例错误	“训练-开发集误差”	“开发/测试集误差”

解决数据错配的办法：
- 进行手动的错误分析，尝试去理解训练集与开发/测试集之间的差异
- 设法使训练数据更加相似与开发集，或者收集更多和开发集相似的数据
- 使数据更加相似的方法
  - 人工数据合成（警惕模型对合成成分的过拟合）

迁移学习 Transfer Learning

迁移学习：将一个任务学习到的一部分知识应用于另外一个任务之中
一种方式是，对于一个已经训练好的网络，去掉最后一层，并随机初始化一个新的最后一层进行另外一个任务的训练
对于新的网络，可以选择之训练最后一层（数据较少）或者选择重新训练所有的权重（数据较多）
对于重新训练的方式，初始阶段的参数配置称为预训练（pre-training），重新调整的过程称为微调（fine tuning）
迁移学习用意义的场景：被迁移的模型拥有大量的训练数据，而迁移到的模型仅有一小部分数据
迁移学习不好用的场景：被迁移的模型训练数据很少，而迁移到的模型却有很多的训练数据
如果从模型A迁移一定的知识到模型B，就需要
- 两个任务应当由相同的输入X
- 任务A有着更多的数据
- A中的低层次特征能够帮助B达到学习目标

多任务学习 Multi-task Learning

迁移学习中，任务A和B有着明确的先后顺序。在多任务学习中，多个任务同时进行，一个网络同时做几件事，每个任务都会帮助其他任务
损失函数应该是对每一个分量的逻辑损失加和，即 $\frac1m\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{n}L(\hat y_j^{(i)},y_j^{(i)})$
不同于softmax回归，每一个样本都有多个标签
即使某些样本的某些分量没有标注，多任务学习算法仍然能正常工作
多任务学习的应用场景
- 训练一组可以在低级特征层面上共享的任务
- 每个单项任务的数据量非常相似（其他全部任务可以对一个任务的学习起到增强作用）
- 能够训练一个足够大的神经网络使其在所有任务上都表现很好（不够大的网络用于多任务训练往往会影响准确率）