吴恩达笔记
读吴恩达新书Machine Learning Yearning记录
RockyRich
这个作者很懒,什么都没留下…
展开
-
Machine Learning Yearning1~14
1.测试数据尽量和要应用的数据分布吻合,这可能和训练数据分布不吻合;尽可能的使得dev 和 test sets的分布相同。 2.如果我们的算法要应用到特定的领域,dev和test sets的分布最好是相同的。 3. dev和test sets的大小要基于模型来定。通过dev和test sets评估不同模型的差异,如果模型差异越小,所需数据量越大。 4.确定一个单值的评价标准(比如accura...原创 2018-05-08 23:00:33 · 336 阅读 · 0 评论 -
Machine Learning Yearning15~19
1.如何进行错误分析呢?我们将错分类别做一个表。 横向是各种各样的error categories。观察多了,对比多了,就会想到各种的错误类别。然后通过这个表,来决定在哪方面投入精力。如上表,相对于狗这类,将方向放到Great cat或者Blurry更好。 2.如果发现被错分类别本身标签是错误的,那么我们需要考虑是否纠正这些错误的标签。这取决于这些标错的数据是否影响我们的判断。如果错分类里...原创 2018-05-08 23:03:03 · 165 阅读 · 0 评论 -
Machine Learning Yearning20~22
1.即使是所有的数据都是相同的分布,训练数据越多也不一定会得到想象的提高。那么我们啥时决定增加数据呢?机器学习里边误差主要来源两个方面:bias 和variance。明白这两个概念能够帮助我们,是否是通过增加数据还是和其它策略一起来提高网络的效果。 比如我们现在的算法,在训练集和测试集的error分别为15%,16%,我们想要达到5%的error。这时增加数据会使得更难达到我们需要的结果。这时,...原创 2018-08-26 15:12:09 · 205 阅读 · 0 评论 -
Machine Learning Yearning23~27
1.如果有可避免的高的偏差(可避免是相对于人类的水平来说的),可以通过增加网络深度来解决。如果方差较高的话(过拟合),增加数据量。 2.现在有很多很棒的神经网络架构,尝试新的框架相较于增加网络模型和数据量具有高的不确定性。 3.增加模型的大小会减小bias,但是可能增加方差,也有过拟合的风险。但一般来说,这种过拟合是由于没有使用正则化。如果有一个设计不错的正则化模型,我们可以放心的增加模型大小...原创 2018-05-11 09:38:24 · 204 阅读 · 0 评论 -
Machine Learning Yearning28~30
1.通过画学习曲线来观察。学习曲线:横坐标是不同数量的训练样本,纵坐标是dev set的error。随着训练样本的增加,error降低。一般来说,我们有一个期望误差率,希望网络能够达到。比如:人类的误差率;直觉上任务应该达到的误差率;长期目标需要达到的误差率。 通过观察上述曲线,可以推断还需要多少训练样本才能达到期望误差率。但是如果误差曲线最后是平的: 那么,通过增加训练数据是不能够达...原创 2018-05-17 11:26:21 · 622 阅读 · 1 评论 -
Machine Learning Yearning31~32
1.如果训练误差比较小,低于期望的误差,而验证误差却较高于寻来你误差,这时,bias较小,variance较大,增加训练数据也许能够减小验证误差和训练误差。但是,如果训练误差本来就比较大,而且验证误差更大,这时bias和variance都大,就得想办法同时减少bias和variance了。 2.在画学习曲线时,当样本很小时,根据数据集的不同情况,会出现学习曲线震动非常厉害的情况,比如都取了负样本...原创 2018-08-26 15:15:30 · 190 阅读 · 0 评论 -
Machine Learning Yearning33~35
1.许多机器学习系统的目的是使得人类做的很好的事情进行自动化。如果人类对一个任务处理的较好,那么我们可以相对容易的建造一个ML系统。原因有,1,容易获得具有高质量标注的数据;2,能够利用人类的直觉进行知道模型改进;3,将人类的表现和机器的表现进行对比。第3点还是比较重要的,因为它可以在一定程度上指导我们,是否我们的模型能够还有提高。 2.对于远超,人类表现的ML系统,我们需要关注的问题有:1,收...原创 2018-08-26 14:55:07 · 176 阅读 · 0 评论 -
Machine Learning Yearning36~39
1.我们需要牢记的一点是,测试数据的分布一定要是我们期望的处理的数据的分布。所以如果期望的处理的数据有10000,而另一种分布的数据有200000,那么从210000里边分训练集和测试验证集是不合理的,因为这里边的验证集的分布大部分是第二种分布,并不是我们将来期望处理数据的分布。 但是由于我们能得到大量的数据,我们希望即使训练集和测试集分布不同,我们仍然能够利用这些信息。 我们假设验证集和测试...原创 2018-08-26 14:56:41 · 142 阅读 · 0 评论 -
Machine Learning Yearning40~43
1.当训练数据有两个分布数据,测试数据只有其中一个分布数据,这时后如果测试数据错误率比我们预期的要高,那么可以从以下方面进行检查:1,在训练数据效果不好,这时主要问题是训练数据分布的高的可以避免的bias的存在;2,如果训练集表现较好,但是对于和训练集具有相同分布的未见过的数据(此处不是验证集或者测试集)效果不好,那么是因为高的variance;3,如果训练集效果好,对于和训练集具有相同分布的未见...原创 2018-08-26 14:58:02 · 169 阅读 · 0 评论 -
Machine Learning Yearning44~46
最优验证测试就能够正确指导我们解决问题的方向。原创 2018-08-26 15:03:00 · 132 阅读 · 0 评论 -
Machine Learning Yearning47~49
1.端对端系统与非端对端系统。 非端对端: 缺点,会丢掉一些信息;对真实情况不能很好的近似,限制潜能。我们都确定每个步骤。 优点,手提特征比较具有鲁棒性;少量数据也可以。 端对端: 缺点,需要大量数据。 优点,数据足够的话,算法潜能非常大。...原创 2018-08-26 15:04:07 · 197 阅读 · 0 评论