2018年04月_Einstellung

原创 3.1.5 改善模型的表现

改善模型的表现这是本周的总结课程吴教主深度学习和神经网络课程总纲

2018-04-30 12:38:08 351

原创 3.1.4 如何使深度学习模型达到人类水平以及超高人类水平

为什么是人的表现可避免的偏差理解人的表现吴教主深度学习和神经网络课程总纲

2018-04-30 12:19:42 509

原创 3.1.3 训练/开发/测试集的问题以及注意事项

训练/开发/测试集划分开发集我们称之为development set，有时候也称之为保留交叉验证集。机器学习的流程是，你尝试很多的思想，然后用训练集训练不同的模型，使用开发集来评估不同的思路，选择一个，之后不断迭代去改善开发集的性能，直到最后你可以得到一个令你满意的成本，之后用测试集去评估。数据集和测试集的划分一个非常非常重要的原则就是一定满足同一分布。如图所示，如果我们要8个不同...

2018-04-28 18:14:20 605

单一数字评估指标我们有什么单一的评估指标呢，这里我们就来介绍一下。查准率（prediction）就是在你的分类器标记为猫的例子中，有多少是真猫的概率。查全率（recall）就是对于所有的真猫图片，你的分类器正确识别出了多少百分比。实际是猫的图片中，有多少被系统识别出来了。但是有两个分析指标并不是很好，如果一个算法查准率高，查全率低或者反过来，那么这个算法是不是好算法呢？因此，我们还引入了F1值这个指

2018-04-28 11:38:37 1317

原创 3.1.1 正交化

正交化如图所示，右侧开车的例子，如果你用一个控制变量来控制角度，另外一个控制变量来控制速度，那么你可以很容易的开好这个车。如果你有一个控制变量既可以控制角度，也可以控制速度，虽然也可以开好这个车，但相比而言就困难很多了。正交化意味着这两个控制变量互相垂直，并不彼此干扰。这种设计出来的控制装置是比较好的控制装置。那么这个和机器学习有什么关系？如图所示，对于一个监督学习而言。你...

2018-04-27 21:44:13 4093

原创 2.3.3 Softmax回归介绍

Softmax回归到现在我们的分类问题都只能识别0和1的问题，比如说是猫或者不是猫，那么更复杂的问题怎么办呢？Softmax回归就能让你在多分类中识别是哪一个分类，而不只是二分类中识别。如图所示，这里我们用C来表示想要分类的总类别。符合编程习惯，我们第一个数是从0开始的。这里我们的输出层有4个。因为它必须输出四个数，所以这四个数的预测值概率加起来应该等于1.在Softmx网络中...

2018-04-26 21:43:26 384

原创 2.3.2 Batch Norm介绍

正则化网络的激活函数Batch归一化会使你的参数搜索变得很容易，使神经网络对超参数选择变得更加稳定。超参数范围会更庞大，工作效率也会更好。也会让你训练出更为深层次的神经网络。下面我们具体介绍一下Batch归一化如图右侧的圈圈所示，我们之前已经学过了通过归一化手段如何将扁平的圈圈变成比较一般的圆形，但是这只是对逻辑回归而言的，对于神经网络应该怎么做呢？我们在归一化的例子中看到了，如果...

2018-04-25 18:08:42 852

原创 2.3.1 为超参数选择合适的范围

调试处理对于超参数，如何才能找到一个比较好的设定呢？如图所示，我们可能会需要调试很多的超参数。但其中最重要的超参数还是学习率。被红色圈住的是最重要的超参数，橙色的是次重要的超参数。紫色是再其次重要的。如果想调试一系列的超参数，具体应该怎么做呢？如图所示，我们通常情况下会采用图中右侧所示的情况来选择超参数，比如说二维情况下，我们确定选择范围之后随机选点，然后看看这个超参数效果...

2018-04-24 17:38:54 1498 1

原创 2.2.7 局部最优化问题

局部最优化问题如图左侧所示，似乎存在很多局部最优解。某个算法可能会困在局部最优解里，而不能达到全局最优解。如果通过画图的情况，比如说这种两纬度的情况，就很容易出现许多局部最优解。然而，通过这样的低纬来理解高维是不正确的。事实上如果你要创建一个神经网络，通常梯度为0的点并不是图中局部最优点，而是右图中的鞍点（saddle points），在高维情况，我们通常碰到的是鞍点而不是局部最优点。...

2018-04-24 11:20:22 2883

原创 2.2.6 学习率衰减

学习率衰减加快神经网络的另一个办法就是随着时间推移慢慢减少学习率。我们将这个称之为学习率衰减。如图中蓝色线所示，当mini-batch不大的时候，噪声会比较明显。最后不会精确地收敛，而是在最小值附近不断地波动。但是如果我们不断减少学习率，最后情况就如同图中绿线所示，最后会在最小值附近很小的一块区域不断波动，而不会在比较大的区域里。减小学习率的方法如下：我们需要在第一代的时候...

2018-04-24 10:52:51 964

原创 2.2.5 Adam优化算法

Adam优化算法Adam算法的全称是Adaptive Moment EstimationAdam算法基本上是momentum算法和RMSprop算法的结合。我们下面介绍一下这个算法算法如图所示，注意图中VcorrecteddwVdwcorrectedV_{dw}^{corrected}表示的是偏差修正。这个算法中有许多的超参数，那么该如何选择超参数呢？如图所示，学习率是...

2018-04-24 09:51:07 1562

原创 2.2.4 RMSprop

RMSprop这个算法的全称是root mean square prop.下面我们来谈一下他是如何工作的。如图所示，你想减缓b方向的学习率，然后加速w方向的学习率。这里，所不同的是我们使用Sdw=βSdw+(1−β)dw2Sdw=βSdw+(1−β)dw2S_{dw} = \beta S_{dw}+(1-\beta)dw^2 使用微分平方的加权平均数。另外一个不同是最...

2018-04-23 23:01:22 814

原创 2.2.3 动量梯度下降法

动量梯度下降法我们现在介绍一下Momentum梯度下降法，运行速度快于标准的梯度下降法。其基本思想就是计算梯度的指数加权平均数，并利用该梯度来更新权重。如图所示，图中蓝色的代表batch或者mini-batch的梯度下降法，很可能这种梯度下降法的逼近就是以这种形式来逼近的。这种上下波动减慢了梯度下降法的更新速度。使你无法用更大的学习率。如果用更大的学习率可能就如图中紫色线条所示，偏离了...

2018-04-23 22:24:51 2163 1

原创 2.2.2 指数加权平均

指数加权平均下面介绍一下比梯度下降更快的算法，不过在这之前，你要了解指数加全平均。如1和2所示，指数加权实际上就是设置一个权值。就像下图所示通过11−β11−β\frac{1}{1-\beta} 来计算是平均的多少天。理解指数加权平均如下图所示我们要算第100天的平均温度可以写成图中下面0.9的指数形式。由上图是每天的实际温度，下面是0.1...

2018-04-23 21:12:05 495

原创 2.2.1 mini-batch

调试处理我们知道在大量数据下面训练算法，速度会非常慢，那么我们需要找到快速的优化算法来加快训练速度。这里我们先来讨论mini-batch梯度下降法mini-batch梯度下降法介绍如图所示我们传统的算法是执行一遍梯度算法要跑整个数据集，如果数据集很大，比如说有5千万，那么多次执行梯度下降法速度会很慢很慢。所以，如果你在处理完整个训练集样本之前，先让梯度下降法处理一部分，那么你的算法会快很多。我们可以

2018-04-23 19:23:47 722

原创 2.1.5 梯度检验

梯度的数值逼近当实施反向传播的时候，有一个测试叫做梯度检验，它的作用是保证反向传播可以正确实施。在写好反向传播公式的时候，你没有办法保证执行反向传播的所有细节全部都是正确的。为了实现逐步梯度检验，我们先来说一下如何对梯度做数值逼近。如图所示，我们只需记住，双边检测误差更低，精度更高。那么为什么是平方误差关系呢，这里用到了泰勒展开式，做差所得，我们先来复习一下泰勒展开式的知识然后这个公式的推导过程如下

2018-04-21 23:57:00 4990 3

原创 2.1.4 对梯度消失和梯度爆炸的近似解决方案

梯度消失与梯度爆炸如图所示对于一个层数比较深的网络，如100层，如果w的参数设置的比1大，最后迭代训练的结果是wlwlw^l，将会是一个非常大的数，反之如果w的参数设置的比1小，经过迭代训练之后结果会变得非常小。这种现象就称之为梯度消失与梯度爆炸，这对于神经网络的深度有很大的挑战。神经网络的权重初始化针对这一个问题，我们有一个不完善的解决办法。但他可以帮助我们更谨慎的为神经...

2018-04-21 20:26:01 533

原创 2.1.3 正则化（归一化）的用处以及何时使用

正则化输入假设我有一个训练集，它有两个输入特征x1和x2,。归一化输入需要两个步骤。第一步是零均值话（subtract mean），经过零均值话处理之后数据就如中间那个图分布的那样。第二步是归一化方差，我们注意到x1的方差要比x2的方差大很多。所以进行如下操作：σ2=1m∑i=1mx2(1)(1)σ2=1m∑i=1mx2\sigma^2 = \frac{1}{m}\sum_{i=...

2018-04-21 17:11:33 2625 2

原创 2.1.2 Dropout正则化以及其他正则化

Dropout正则化Dropout介绍除了L2正则化之外，还有一个很重要的正则化方法叫随机失活（Dropout），下面，我们来了解一下。如图所示，假设网络中的每一层的节点都以抛硬币的形式来设置概率，每一个节点得以保留和消除的概率都是0.5。设置完节点之后，我们会删除得分是0分节点，然后删除从该节点进出的连线。最后得到一个节点更少，规模更小的网络。之后我们用反向传播算法进行训...

2018-04-16 21:23:00 2057

原创 2.1.1 正则化基本介绍

训练/开发、测试集最好验证集合测试集来自同一分布。在机器学习中验证集合测试集的含义分别如下：验证集：对学习出来的模型，调整分类器的参数，如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。测试集：主要是测试训练好的模型的分辨能力（识别率等）对于深度学习而言，有的时候即使是没有测试集也没有什么关系。测试集的目的是对所选定的网络系统进行无偏估计，如果你...

2018-04-16 12:20:58 784

Einstellung的博客