一、性能优化
1.动量法
2.自适应梯度算法
参数自适应变化:具有较大偏导的参数相应有一个较大的学习率,而具有小偏导的参数则对应一个较小的学习率 (
具体来说,每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根)。
(1)
Adaptive Gradient
(2)RMSProp
(3)Adam
3.性能优化问题描述
待解决问题:
权值
𝐰
取何值,指标函数
𝐽(𝐰)
最小?
恰恰是最优化方法中的基本问题:函数最小化。 进一步,我们希望建立迭代形式,并且形式尽量简单,类似基本BP算法
(
最速梯度法
):
𝐰
𝑘+1
= 𝐰
𝑘
+ 𝛼
𝑘
𝐩
𝑘
4.常用技巧
(1)
训练数据与测试数据
数据包括:
➢
训练数据
➢
验证数据
➢
测试数据
通常三者比例为70%,15%,15%或60,20,20
当数据很多时,训练和验证数据可适当减少
(2)
训练数据与测试数据:
𝐾
折交叉验证
原始训练数据被分成
K
个不重叠的子集。 然后执行
K
次模型训练和验证,每次在 K
−1
个子集上进行训练, 并在剩余的一个子集(在该轮中没有用于训练的子集)上进行验证。 最后,通过对 K
次实验的结果取平均来估计训练和验证误差。
(3)
欠拟合与过拟合
➢
欠拟合:误差一直比较大
➢
过拟合:在训练数据集上误差小而在测试数据集上误差大
权重衰减 (𝐿2正则化):为防止过拟合和权值震荡,加入新的指标函数项。
Dropout(暂退):在整个训练过程的每一次迭代中,标准暂退法包括在计算下一层之前将当前层中的一些节点置零。
模型初始化:简单的考虑,把所有权值在[-1,1]区间内按均值或高斯分布进行初始化。
二、卷积神经网络
1.深度学习平台
2.卷积神经网络基础
全连接网络
:链接权过多,难算难收敛,同时可能进入局部极小值,也容易产生过拟合问题。
局部连接网络
:顾名思义,只有一部分权值连接。部分输入和权值卷积。
填充(Padding)
:也就是在矩阵的边界上填充一些值,以增加矩阵的大小,通常用0或者复制边界像素来进行填充。
步长(Stride)
:如图步长为2。
多通道卷积
:如RGB
3.卷积神经网络结构
构成
:由多个卷积层和下采样层构成,后面可连接全连接网络
卷积层:
k
个滤波器
下采样层
:采用mean或max
后面
:连着全连接网络
4.LeNet-5网络
(1)网络结构
(2)结构详解
C1-6个Feature map构成 ,每个神经元对输入进行5*5卷积,每个神经元对应5*5+1个参数,共6个feature map,28*28个神经元,因此共有(5*5+1)*6*(28*28)=122,304连接。
S2
C3-选择不同的连接
S4-和S2相同
C5-120个神经元,每个神经元同样对输入进行5*5卷积,与S4全连接,总连接数(5*5*16+1)*120=48120
F6-84个神经元 ,与C5全连接,总连接数(120+1)*84=10164
输出层-由欧式径向基函数单元构成,每类一个单元,输出RBF单元计算输入向量和参数向量之间的欧式距离
(3)误差反向传播