目录
5.1.针对多分类问题(softmax输出,所有输出概率和为1)
5.2.针对二分类问题(sigmoid输出,每个输出节点之间互不相干)
8.1.SGD优化器(Stochastic Gradient Descent)
1.激活函数
1.1.sigmoid激活函数
缺点:Sigmoid激活函数饱和时梯度值非常小,故网络层数较深时易出现梯度消失。
1.2.ReLU激活函数
缺点:当反向传播过程中有一个非常大的梯度经过时,反向传播更新后可能导致权重分布中心小于0,导致该处的倒数始终为0,反向传播无法更新权重,即进入失活状态。
2.卷积层
- 目的:进行图像特征提取
- 在卷积过程中,矩阵经卷积操作后的尺寸由以下几个因数决定:
- 输入图片大小W×W
- Filter大小F×F
- 步长S
- padding的像素数P
- 经卷积后的矩阵尺寸大小计算公式为:N=(W-F+2P)/S+1。
- 卷积特性:拥有局部感知机制;权值共享。
3.池化层
- 目的:对特征图进行稀疏处理,减少数据运算量。
- MaxPooling下采样层
- AveragePooling下采样层
- 池化层总结:没有训练参数;只改变特征矩阵的w和h,不改变channel;一般poolsize和stride相同。
4.误差的计算
,
经过SoftMax处理后所有输出节点的概率和为1,即。
5.CrossEntropyLss交叉熵损失
5.1.针对多分类问题(softmax输出,所有输出概率和为1)
5.2.针对二分类问题(sigmoid输出,每个输出节点之间互不相干)
其中为真实标签值,
为预测值,默认log以e为底等于ln。
6.误差的反向传播
7.权重的更新
在实际应用中往往不可能一次新将所有数据载入内存(算力也不够),所以只能分批次(batch)训练。若使用整个样本集进行求解,损失梯度只想全局最优方向;若使用分批次样本进行求解,损失梯度只想当前批次最优方向。
8.优化器
8.1.SGD优化器(Stochastic Gradient Descent)
其中α为学习率,为i时刻对参数
的损失梯度。缺点:易受样本噪声影响;可能陷入局部最优解。
8.2.SGD+Momentum优化器
其中α为学习率,为i时刻对参数
的损失梯度,η(0.9)为动量系数。
8.3.Adagrad优化器(自适应学习率)
其中α为学习率,为i时刻对参数
的损失梯度,
为防止分母为零的小数。缺点:学习率下降的太快可能还没收敛就停止训练。
8.4.RMSProp优化器(自适应学习率)
其中α为学习率,为i时刻对参数
的损失梯度,η(0.9)控制衰减速度,
为防止分母为零的小数。
8.5.Adam优化器(自适应学习率)
其中α为学习率,为i时刻对参数
的损失梯度,
控制衰减速度,
为防止分母为零的小数。
9.过拟合
- 特征维度过多,模型假设过于复杂,参数过多,训练数据过少,噪声过多,导致拟合的函数完美的预测训练集,但对新数据的测试集预测结果差。过度的拟合了训练数据,而没有考虑到泛化能力。
- 解决方法:使用DropOut的方式在网络正向传播过程中随机失活一部分神经元。