1.性能优化
1.1 动量法
病态曲率:
动量法:
1.2自适应梯度法
参数自适应:具有较大偏导的参数有较大的学习率,小偏导的参数具有较小的学习率。
特点:
学习率单调递减,后期学习率小导致训练困难甚至提前结束。需要设定初始学习率。
RMSProp
RMSProp解决AdaGrad学习率过度衰减的问题:
Adam:
在RMSProp的基础上,Adam除了加入历史梯度平方的指数衰减平均外还保留了历史梯度的指数衰减平均,相当于动量。
1.3性能优化问题
待解决问题:权值𝐰取何值,指标函数𝐽(𝐰)最小?恰恰是最优化方法中的基本问题:函数最小化。
进一步,我们希望建立迭代形式,并且形式尽量简单,类似基本BP算法。
基本思想:
全局最小点,局部最小点的一阶、二阶条件。
1.4 二阶算法
牛顿法:
2.卷积神经网络
卷积神经网络取得的第一个进步是AlexNet网络,它是在2012年提出的。这里有一些关键的改进:它提出了ReLu,也就是有助于防止消失的梯度问题;它也引入了dropout的概念,使得每层中神经元随机地打开和关闭,防止过拟合。如果你的数据过于相似,它不能够对相似但不同的图像进行分类,因为它过拟合了你的训练数据。
之后,就是VGG Net。其中最大的变化是,添加了更多的层。接下来是ResNet,这是在resin之后的创意。并且改进梯度传播,从而使得反向传播更加容易。进一步解决了梯度消失的问题这之后是DenseNet。DenseNet 提出将网络中每一层的所有块与其他层连接起来。这是一种更复杂的连接策略。网络被设计的越来越深。还有一些计算技巧正在被添加到这些卷积网络上,比如ReLu或dropout或批量标准化(Batch Normalization),从而提升了性能。另外,我们还在网络层之间使用越来越多的连接,但是Hinton说卷积神经网络存在问题。
卷积神经网络的基本概念可以概括为,全连接网络,链接权过多,难算难收敛,同时可能进入局部极小值,也容易产生过拟合问题。因此进行填充操。也就是在矩阵的边界上填充一些值,以增加矩阵的大小,通常用0或者复制边界像素来进行填充。如下图所示。